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Einfuhrung 


Ungefahr  2  Prozent  der  Bevolkerung  der  westlichen  Welt  leiden  an  den  Nachwirkungen 
einer  Hirnschadigung.  Sie  kann  verursacht  sein  dutch  Schlaganfalle,  Hirnblutungen, 
Schadel-Hirn-Verletzungen,  traumatische  Erkrankungen,  Hirntumore  oder  entzundliche 
Prozesse  im  Gehirn.  In  vielen  Fallen  sind  mit  einer  solchen  Schadigung  neurogene 
Sprechstorungen  verbunden,  die  alle  funktionellen  Strukturen  des  Sprechvorganges 
wie  Sprechatmung,  Stimme  und  Artikulation  betreffen  konnen.  Dutch  die  Einschrankung 
der  kommunikativen  Fahigkeiten  wird  eine  solche  Behinderung  dutch  den  Patienten  im 
allgemeinen  als  besonders  schwerwiegend  empfunden. 

Die  Diagnostik  neurogener  Sprechstorungen  ist  ein  Aufgabenbereich  der  klini- 
schen  Neuropsychologie.  Hierbei  kommen  heute  noch  vorwiegend  auditive  Verfahren 
zum  Einsatz,  d.h.,  ein  geschulter  Hdrer  beurteilt  einen  Patienten  nach  seinem  subjek- 
tiven  Horeindruck.  Akustisch-phonetische  Verfahren,  also  der  unterstiitzende  Einsatz 
technischer  Systeme,  tragen  hier  zu  einer  Objektivierung  des  klinischen  Bildes  bei. 
Obwohl  die  Verwendung  akustischer  Parameter  in  der  Beschreibung  neurogener  Sprech¬ 
storungen  mittlerweile  zum  Standard  wissenschaftlicher  Untersuchungen  gehdrt,  ist  die 
tatsachliche  Bedeutung  dieser  Parameter  in  der  klinischen  Diagnostik,  gemessen  an 
diesen  Entwicklungen,  immer  noch  gering.  Nur  In  wenigen  klinischen  Einrichtungen 
werden  neurogene  Sprechstorungen  routinemafiig  akustisch  evaluiert,  und  vor  allem  in 
der  Quantifizierung  von  Therapieeffekten  fehlt  es  an  Belegen  dutch  valide  akustische 
Parameter.  Ein  Grund  fiir  diesen  Mangel  kann  darin  gesehen  werden,  daft  die  meisten 
Verfahren  fiir  die  Routineanwendung  immer  noch  zu  komplex  sind,  und  die  Aussage- 
kraft  vieler  Parameter  nicht  ausreichend  transparent  ist. 

Mit  dem  im  Rahmen  dieser  Arbeit  entstandenen  Modulareii  Diagnostik-System 
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fiir  Sprechstorungen  (MODIAS)  soli  dem  Diagnostiker  erstmals  ein  umfassendes 
Instrument  zur  Standarddiagnostik  neurogener  Sprechstorungen  anhand  akusti- 
scher  Analysen  des  Sprachsignals  und  zur  Befunderstellung  anhand  akustischer 
Parameter  an  die  Hand  gegeben  werden.  Der  Anspruch  der  klinischen  Verwend- 
barkeit  bedingte  dabei  unter  anderem  die  Integration  aller  relevanten  Aspekte  einer 
klinischen  Standarddiagnostik  von  der  Presentation  des  Stimulusmaterials  uber  die 
Sprachaufzeichnung  mit  anschliefiender  Berechnung  akustischer  Parameter  bis  hin  zur 
Ergebnisprasentation.  Es  sollten  nur  klinisch  relevante  Parameter  geliefert  werden,  die 
auch  geeignet  sind,  valide  Aussagen  iiber  die  wichtigsten  Aspekte  wie  Artikulation, 
Stimme  und  Prosodie  zu  treffen.  Samtliche  akustischen  Parameter  sollten  technisch 
beziiglich  Stabilitat  und  Exaktheit  optimiert  sein,  auch  unter  bewufiter  Inkaufnahme 
hoherer  Rechenzeiten.  Samtliche  Berechnungen  sollten  dabei  eine  nur  minimale  Be- 
nutzerinteraktion  erfordern  sowie  klare  und  leicht  interpretierbare  Ergebnisse  liefern. 
Zusatzlich  sollten  neueste  Methoden  der  Digitalen  Signalverarbeitung  Anwen- 
dung  finden. 

Die  Losung  einer  solchen  interdisziplinSren  Aufgabenstellung  kann  nur  durch 
ein  Zusammenwirken  ueuropsychologischer  Expertise  mit  ingenieurwissenschaftlicher 
Methodik  bewaltigt  werden.  Durch  die  Vielzahl  involvierter  Fachdisziplinen  wie  der 
Neuropsychologie,  Neurolinguistik  und  Phonetik  sowie  der  Elektrotechnik  und  der 
Informatik  ist  hierbei  ein  standiger  Dialog  der  verschiedenen  Experten  erforderlich, 
besonders  in  den  iterativen  Phasen  der  klinischen  Erprobungen. 

Die  Arbeitsgruppe  Sprach-  und  Sprechstorungen  der  Entwicklungsgruppe  klinische 
Neuropsychologie  des  StMdtischen  Krankenhauses  MOnchen-Bogenhausen 
(EKN)  beschaftigt  sich  mit  Pragen  der  Diagnostik  und  der  Behandlung  von  sprechmoto- 
rischen  Storungen  bei  dysarthrischen  und  aphasischen  Patienten,  aphasischen  Storungen 
vor  allem  der  phonologischen  Verarbeitung  und  des  Wortabrufs  und  nicht-aphasischen, 
primar  kognitiv  bedingten  Storungen  der  Textverarbeitung  bei  Patienten  mit  Hirnscha- 
digung.  Zu  den  Hauptaspekten  dieser  Aktivitaten  zS,hlt  die  Entwicklung  und  Evaluation 
von  klinisch  einsetzbaren  computergesteuerten  Verfahren  fiir  die  Anwendung  in  der 
klinischen  Versorgung. 

Die  wissenschaftliche  Arbeitsgruppe  Computersysteme  fiir  medizinische  Diagnose, 
Therapie  und  Lebenshilfe  des  Instituts  fiir  Nachrichtentechnik  der  UniversitSt 
der  Bundeswehr  Munchen  leistet  seit  vielen  Jahren  Beitrage  zur  Hilfestellung 
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behinderter  Menschen  und  zur  Unterstiitzung  von  Medizinern  in  ihrer  taglichen  Arbeit. 
Durch  langjahrige  und  fruchtbare  Kooperation  dieser  beiden  Institutionen  waren  bereits 
der  Testplatz  zur  Untersuchung  von  Sprechstdrungen  (TUS)  und  das  System  PhonX 
entstanden.  Der  TUS  wird  derzeit  iiberwiegend  zur  Durchfuhrung  von  Verstandlich- 
keitsuntersuchungen  nach  dem  Miinchner  Verst andlichkeitsprofil  (MVP)  eingesetzt  und 
bildet  die  technische  Grundlage  einer  Studie  zur  Sprediapraxietherapie.  PhonX  wird 
iiberwiegend  zur  Steuerung  von  neurophonetischen  Experimenten  zur  Sprachproduktion 
und  auditiven  Sprachverarbeitung  verwendet.  Das  hier  vorgestellte  Diagnostik-System 
MODIAS  ist  nun  das  Ergebnis  einer  weiteren  iiber  fiinfjahrigen  Kooperation. 

Die  vorliegende  schriftliche  Arbeit  ist  so  aufgebaut,  dafi  ein  klinischer  Diagno- 
stiker  schnell  und  zuverlassig  das  Potential  des  MODIAS-Systems  erfassen  und  auf  seine 
konkreten  Bediirfnisse  projizieren  kann.  Er  solite  anhand  dieser  Arbeit  eine  vollstandige 
Patientenuntersuchung  durchfiihren  und  deren  Ergebnisse  uneingeschrankt  interpretie- 
ren  konnen.  Auf  der  anderen  Seite  solite  dem  Ingenieur  ein  hinreichender  Einblick  in 
die  technischen  Verfahren  gewahrt  werden,  und  zwar  in  einem  Detaillierungsgrad,  der 
ihn  bei  vergleichbaren  Projekten  zu  ahnlichen  oder  weiter  optimierten  Losungsansatzen 
inspirieren  kann. 

Kapitel  1  schafft  zunachst  die  anatomischen  und  physiologisdien  Grundlagen  fiir 
das  Verstandnis  des  Sprechvorgangs.  Danach  folgen  die  Grundziige  der  Phonetik, 
die  sich  mit  der  Beschreibung  und  der  Klassifikation  von  Sprachlauten  beschaftigt. 
AnsdilieEend  werden  die  akustischen  Grundlagen  aufgezeigt,  also  die  Eigenschaften 
des  Sprachschalls  in  Abhangigkeit  von  der  ubertragenen  Information.  AbschlieRend 
werden  die  suprasegmentalen  bzw.  prosodischen  Merkmale  der  Sprache  naher  beleuchtet. 

Kapitel  2  beschaftigt  sich  mit  dem  Themengebiet  neurogener  Sprechstdrungen. 
Nach  einer  neuropsychologischen  Definition  werden  zunachst  die  Atiologien  und  die 
verschiedenen  Syndrome  vorgestellt.  Anschliefiend  werden  die  aktuellen  Verfahren  in  der 
Sprechstorungsdiagnostik  aufgezeigt. 

Kapitel  3  widmet  sich  der  Beschreibung  des  Diagnostischen  und  Technischen  Konzepts 
des  MODIAS-Systems.  Hier  soli  ein  Uberblick  geschaffen  werden,  welche  Probleme  in 
der  klinischen  Sprechstorungsdiagnostik  vorherrschen  und  welche  tjberlegungen  bei  der 
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Konzepfcion  des  MODIAS-Systems  Beriicksichtigung  fanden. 

Die  Realisierung  des  MODIAS-Systems  wird  in  den  Kapiteln  4-7  getrennt  nach 
den  4  enthaltenen  Einzelmodulen  vorgestellt.  Dabei  ist  jedes  dieser  Kapitel  identisch 
strukturiert: 

Ausgehend  von  der  jeweils  beleuchteten  diagnostischen  Pragestellung  wird  zunachst  der 
Aufbau  und  die  Gestaltung  des  Programm-Moduls  vorgestellt,  also  im  wesentlichen  der 
Ablauf  und  die  Durchfiihrung  eiher  Untersuchung  und  die  Interpretation  der  Ergebnisse 
ohne  technische  Details.  Damit  soli  ein  Diagnostiker  in  die  Lage  versetzt  werden, 
das  jeweilige  Modul  unmittelbar  in  seinem  klinischen  Umfeld  einzusetzen. 

Danach  folgt  der  technisch-wissenschaftliche  Anteil  bzw.  die  Vorstellung  samtlicher 
technischer  Verfahren  und  Algorithmen,  die  fiir  den  Anwender  nicht  sichtbar  ablaufen 
und  die  Funktionalitat  des  Systems  gewahrleisten.  Die  Darstellung  erfolgt  dabei  sehr 
transparent  und  in  einem  hinreichend  hohen  Detaillierungsgrad,  um  einem  Ingenieur 
bei  vergleichbaren  Projekten  konkrete  Hilfe  anzubieten. 

Am  Ende  des  Kapitels  werden  jeweils  einige  klinische  Anwendungen  prasentiert, 
die  eowohl  dem  Diagnostiker  als  auch  dem  Ingenieur  die  Einsatzmoglichkeiten  und  die 
bisherigen  Resultate  aufzeigen  und  damit  einen  Eindruck  von  der  breit  gefScherten 
klinischen  Nutzung  vermitteln  sollen. 


1.  Der  Sprechvorgang 


Der  Vorgang  des  Sprechens  entsteht  aus  dein  komplexen  Zusammenwirken  der  Kompo- 
nenten  Atmung,  Phonation  und  Artikulation  {{Bas86],  [Lie77],  [Per86],  [Vog87],  [Vog88]). 
Die  Avsatmung  mufi  dabei  kontinuierlich  erfolgen;  sie  ist  gegenuber  der  Ruheatmung  um 
ca.  1/3  verlangert.  Dies  wird  durch  eine  Beschleunigung  des  Einatmens  beim  Sprechen 
erreicht,  wobei  die  Gesamtdauer  des  Atemzyklus  beim  Sprechen  und  in  der  Ruhe  etwa 
gleich  ist  und  im  Durchschnitt  ca.  5  Sekunden  betragt  {[Poe89]). 

Der  Luftstrom  wird  hn  Stimmapparat  moduliert,  d.h.,  in  Turbulenzen  oder  peri- 
odische  Schwingungen  versetzt  [Phonation). 

Beim  Passieren  des  Rachen-  und  Mundraumes  kommt  es  je  nach  OfFnungsgrad  und 
Zungenposition  zu  Turbulenzen  und  plotzlichen  Unterbrechungen  des  Luftstroms.  Erst 
durch  Resonanzereignisse  ergeben  sich  hierbei  die  fiir  die  Sprachlaute  charakteristischen 
Klang-  und  Gerauschmuster.  Die  Veranderungen  der  Klang-  bzw.  Gerauscheigenschaften 
werden  durch  spezifische  Bewegungen  der  Artikulatoren  erreicht. 

Der  Sprechvorgang  erfordert  dabei  die  genaue  zeitliche  Abstimmung  aller  am  Sprechvor¬ 
gang  beteiligter  Muskelgruppen,  das  sind 

•  Zwerchfell,  Bauch-  und  Brustmuskulatur, 

•  Kehlkopfmuskulatur, 

•  Zungenbein-  und  Rachenmuskulatur, 

•  Zungenmuskulatur, 

•  Mund-  und  Kiefermuskulatur. 
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1.  Der  Sprechvorgang 


Fiir  normales  Sprechen  gilt,  dafi  Art  und  Ausmafi  der  Respirations-,  Phonations-  und 
Artikulationsvorgange  exakt  koordiniert  und  die  artikulatorischen  Ziele  im  Mundraum 
rasch  erreicht  warden  mussen.  Diese  (zeitliche)  Koordination  variiert  dabei  nach  Sprech- 
geschwindigkeit,  Sprechrhythmus  und  Sprechmelodie. 


1.1.  Anatomische  und  physiologische  Grundlagen 


Die  Sprechwerkzeuge  sind  diejenigen  Organe,  die  am  Sprechvorgang  beteiligt  sind.  Die 
Abbildung  1.1  zeigt  im  tlberblick,  daft  hierzu  nicht  nur  Mund  und  Hals,  sondern  auch 
Nase,  Luftrohre  und  Lunge  zu  zahlen  sind. 


Abbildung  1.1.;  Die  Sprechwerkzeuge  des  Menschen  im  Oberblick  ((Cry95]). 
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1.1.  Anatomische  und  physiologische  Grundlagen 


1.1.1.  Atemorgane 

Laute  sind  Schallwellen,  zu  deren  Erzeugung  grundsatzlich  eine  Energiequelle  erforderlich 
ist.  Beim  Sprechvorgang  ubernehmen  die  Atemorgane  diese  Aufgabe,  indem  sie  die  vor 
dem  Sprechvorgang  eingeatmete  Luft  als  pulmonale  Luft  kontinuierlich  und  gegeniiber 
normaler  Exspiration  (Ausatmung)  zeitlich  verlangert  wieder  ausstromen  lassen  und  so 
den  alveolai’en  Druck  aufbauen,  der  fur  die  anschlieiSende  Phonation  benotigt  wird. 
Unter  den  Atemorganen  versteht  man  das  Thoraxskelett,  die  Atemmuskulatur  und  die 
Lunge. 


1.1.2.  Stimmapparat  und  Stimmblldung 

Zum  Sprechen  wird  pulmonale  Luft  durch  verschiedene  Organe  des  Vokaltrakts  in  Schwin- 
gungen  versetzt.  Ftir  Sprachlaute  ist  die  wichtigste  Schwingungsquelle  der  Kehlkopf  (La¬ 
rynx)  am  oberen  Teil  der  Luftrohre  (siehe  Abbildung  1.4). 

Der  Kehlkopf  ist  ein  rbhrenfdrmiges  Knorpelgeriist,  das  durch  Bander  und  Membranen 
beweglich  zusammengehalten  wird.  Er  lafit  sich  vorne  am  Hals  leicht  durch  den  vorste- 
henden  Schildknorpel  ertasten.  Zum  Kehlkopf  gehoren  aufierdem  der  Ringknorpel  und  die 
beiden  Stell-  oder  Giefibeckenknorpel.  Die  Bewegungen  der  Knorpel  steuern  die  Schwin- 
gimgen  der  Stimmbander. 

Als  Stimmbander  bezeichnet  man  den  oberen  freien  Rand  der  Stimmfalten,  die  sich  von 
der  Ruckfiache  dee  Schildknorpels  zum  Stellknorpel  ziehen  und  jeweils  das  eigentliche 
Stimmband  und  den  Stimm-Muskel  enthalten  (Abbildung  1.2). 

Die  Offnung  zwischen  den  Stimmbandern  wird  als  Stimmritze  (Glottis)  bezeichnet. 

Die  sehr  komplexen  Wechselwirkungen  zwischen  den  Kehlkopfmuskeln  verandern  die 
Spannung,  Elastizitat,  Hohe,  Breite,  Lange  und  Dicke  der  Stimmbander.  Beim  Sprechen 
vollziehen  sich  diese  Anpassungen  mit  hoher  Geschwindigkeit,  und  sie  haben  unterschied- 
liche  Auswirkungen  auf  die  akustischen  Eigenschaften  der  erzeugten  Laute. 

Der  wichtigste  EfFekt  ist  hierbei  die  Erzeugung  hbrbarer  Schwingungen.  Ein  stimmhaf- 
ter  Laut  entsteht,  wenn  die  Stimmritze  zu  einem  Spalt  verengt  ist  und  die  Stimmbander 
schwingen.  Alle  Vokale  und  die  meisten  Konsonanten  nutzen  dieses  Prinzip.  Jedes  Offnen 
bzw.  Schliefien  der  Stimmritze  erzeugt  dabei  einen  Schwingungsimpuls. 

Die  Frequenz  der  Stimmbandschwingungen  kann  dabei  innerhalb  bestimmter  Grenzen  frei 
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1.  Dei-  Sprechvorgang 


Abbildung  1.2.:  Aufbau  des  Kehlkopfs  in  der  Riickansicht  ([Cry95]). 


geandert,  und  damit  konnen  Tonhohe  und  Laiitstarke  variiert  werden.  Bei  Mannern  be- 
trS.gt  die  mittlere  Stimmfrequenz  (auch:  Grundfrequenz  bzw.  Stimmbandgrundfrequenz) 
ca,  120  Hz,  bei  FVauen  ca.  220  Hz  und  liegt  damit  knapp  eine  Oktave  hoher. 

Abbildung  1.3  zeigt  die  Stimmbandbewegung  von  einera  GlottisverschluB  zum  nachsten 
bei  einem  stimmhafben  Laut.  Dieser  Vorgang  wiederholt  sich  zwischen  50  und  300  mal 
pro  Sekimde  je  nach  Stimmfrequenz. 

Die  heutige  Erklarung  fiir  das  Zustandekommen  der  Stimmbandbewegung  und  somit  den 
Effekt  der  Stimmbildung  geht  auf  die  myodastisch-aerodynamische  Theorie  zuriick.  Dem- 
nach  bewirkt  der  Luftdruck  bei  jeder  Einzelschwingung  eine  Offnung  der  Stimmbander, 
die  anschlielJend  sofort  wieder  aneinandergesaugt  werden.  Diese  somit  nicht  neuronal  in- 
ervierte  (wie  von  HUSSON  urspriinglich  in  [Hus62]  postuliert),  sondern  aerodynamisch 
bedingte  Verschlul^bildung  beruht  nach  der  genannten  Theorie  sowohl  auf  der  Eigenelasti- 
zitat  der  Stimmlippen  als  auch  auf  dem  plbtzlichen  Druckabfall  in  der  Glottis  {Bernoulli- 
Effekt). 

VAN  DEN  BERG  verbffentlichte  hierzu  im  Jahre  1957  ein  Grundlagenwerk  ([Van57]), 
das  die.se  Mechanismen  innerhalb  der  Larynx  analysiert;  es  bildet  auch  heute  die  Basis 
fiir  das  Verstandnis  der  Stimmbildung  (siehe  auch  [Fla58]). 


8 


1.1.  Anatomische  und  physiologische  Gruiidlagen 


Abbildung  1.3.:  Hochgeschwindigkeits-Aufnahme  der  Stinimbandbewegung.  Die  obere 
Reihe  zeigt,  wie  sich  die  Stimmritze  vor  der  Phonation  verengt.  Darun- 
ter  sind  die  Stimmbander  wahrend  der  Phonation  zu  erkennen:  Die  noch 
einen  Spalt  geofFnete  Stimmritze  schliefit  sich  vollig,  wodurch  jeweils  ein 
Schwingungsimpuls  erzeugt  wird  ([Cry95]). 

1.1.3.  Vokaltrakt  und  Artikulation 

Nach  Passieren  des  Kehlkopfs  bzw.  der  Stimmbander  gelangt  der  Luftstrom  in  ein  langes, 
rohrenformiges  Gebilde,  das  sogenannte  Ansatzrohr  bzw.  den  Vokaltrakt.  Die  verschiede- 
nen  Luftkammern  des  Vokaltrakts,  wie  z.B.  Mund-,  Nasen-  oder  Rachenraum,  beeinflus- 
sen  die  von  den  Stimmbandern  erzeugten  Schwingungen  (es  handelt  sich  bisher  nur  um 
ein  knatterndes  Gerausch)  und  treten  mit  ihnen  in  Resonanz,  wodurch  charakteristische 
Klang-  bzw.  Gerauschmuster  erzeugt  werden  (Abbildung  1.4).  Diese  Resonanz  ist  veran- 
derlich,  weil  der  Vokaltrakt  unterschiedliche  Formen  annehmen  kann. 

Bei  der  Beschreibung  der  Artikulation  wird  meist  zwischen  beweglichen  und  unbewegli- 
chen  Teilen  des  Vokaltrakts  unterschieden,  also  zwischen 
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1.  Dev  Sprechvorgang 


•  aktiven,  d.h.  durdi  den  Sprecher  steuerbaren  Artikulatoren,  und 

•  passiven  Artikulatoren  bzw.  Artikulationsstellen. 

Zu  den  passiven  Artikulatoren  zahlen  die  oberen  Schneidezahne,  der  Alveolarkamm  (Kno- 
chendamm  hinter  den  oberen  Zahnen)  und  der  harte  Gaumen  (knocherne  Wolbung  hinter 
dem  Alveolarkamm). 

Die  aktiven  Artikulatoren  werden  wie  folgt  unterschieden: 

•  Rachen  (Pharynx):  Muskulose  Rohre,  die  den  Kehlkopf  (Larynx)  mit  dem  riick- 
wartigen  Teil  des  Mund-  bzw.  Rachenraums  verbindet.  Der  Rachen  lafit  sich  wel¬ 
ter  untergliedern  in  Kehlkopfrachen  (Laryngopharynx)^  Mundrachen  (Oropharynx) 
und  Nasenrachen  (Nasopharynx).  Der  Rachen  kann  beim  Sprechvorgang  verengt 
Oder  geweitet  werden,  was  sich  auf  die  Lautqualitat  auswirkt. 

•  Gaumensegel  (Velum):  Breites  muskuloses  Band  im  hinteren  oberen  Bereich  des 
Mundraums  mit  dem  auffalligen  Merkmal  eines  herabhangenden  Zapfchens  ( Uvu¬ 
la).  Das  Velum  kann  gehoben  werden  (Die  aspirierte  Luft  entweicht  wegen  dem 
Velolaryngealverschlufi  nur  noch  durch  den  Mund)  oder  auch  abgesenkt  werden 
(Luft  entweicht  durch  Nase  und  gegebenenfalls  zusatzlich  durch  den  Mund). 

•  Lippen:  Die  Lippenbewegung  wird  von  einer  Reihe  von  Gesichtsmuskeln  gesteuert, 
hauptsachlich  jedoch  durch  den  Mundringmuskel  bzw.  Musculus  orbicularis  oris. 
Sie  konnen  sich  beim  Sprechvorgang  dicht  aufeinanderlegen,  in  unterschiedlichem 
Ausmafi  offnen,  spreizen,  runden  oder  nach  vorne  stiilpen. 

•  Unterkiefer:  Der  Unterkiefer  hat  in  seinem  GfFnungsgrad  einen  erheblichen  Einflufi 
auf  die  Resonanzbildung  und  auf  die  Stellung  der  Lippen. 

•  Zunge:  Muskelkorper,  der  bei  der  Bildung  fast  aller  Laute  beteiligt  ist.  Sie  ist  iiber 
verschiedene  extrinsische  (an  benachbarten  Knochen  entspringende)  Muskeln  in 
3  Hauptrichtungen  bewegbar  (nach  vorne  und  oben,  hinten  und  oben  bzw.  hinten 
und  unten).  Die  Zungenform  selbst  lafit  sich  zusatzlich  uber  eine  Reihe  intrinsischer 
(zungeninterner,  nicht  an  Knochen  sitzender)  Muskeln  beeinflussen. 
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im  Querschnitt  {[Rom98]). 


1.  Der  Sprecbvorgang 

1.2.  Phonetische  Grundtagen 


Die  Phonetik  befafet  eich  mit  der  Beschreibung  und  Klassifikation  von  Sprachlauten.  Diese 
lassen  sich  dabei  anhand  des  physiologischen  Mechanismus  ihrer  Bildung  (artikulatorische 
Beschreibung),  nach  ihrer  akustischen  Qualitat  oder  nach  ihren  auditiven  Merkmalen 
beschreiben. 

Bei  der  gebrauchlichsten  artikulatorischen  phonetischen  Beschreibung  werden  folgende 
Hauptfaktoren  beriicksichtigt  ([Cry95]); 


•  Luftstrom:  Ursprung  und  Richtung  des  pulmonalen  Luftstroms. 

•  Stimmbander;  Stimmhafte  Laute  entstehen,  wenn  die  Stimmbander  schwingen; 
stimmlose  Laute  werden  hingegen  ohne  Stimmbandschwingungen  bei  gebffneter 
Stimmritze  gesprochen. 

•  Gaumensegel:  Bei  abgesenktem  Gaumensegel  strbmt  Luft  iiber  die  Nase  aus  und 
der  Laut  wird  als  nasal  bezeichnet.  1st  es  angehoben,  tritt  die  Luft  ausschlieRlich 
durch  den  Mund  aus  und  der  Laut  ist  oral. 

•  Artikulationsort;  Er  bezeichnet  den  Ort  im  Vokaltrakt,  an  dem  der  Verschlufi  bzw. 
die  Verengung  gebildet  werden,  die  fiir  den  jeweiligen  Laut  bestimmend  sind. 

•  Artikulationsart:  Art  der  Verengung  oder  Bewegung  an  der  jeweiligen  Artikula- 
tionsstelle  wie  z.B.  eine  deutliche  Verengung  oder  ein  plotzlich  oder  allmahlich 
aufgeloster  Verschlufi. 

•  Lippen:  Stellung  der  Lippen;  ihr  kommt  besonders  bei  Vokalen  eine  bedeutende 
Rolle  zu. 


Besonders  wichtig  ist  auch  die  phonetische  Differenzierung  zwischen  Konsonanten  und 
Vokalen.  Konsonanten  werden  hierbei  als  Laute  definiert,  die  mittels  eines  Verschlussee 
im  Vokaltrakt  oder  durch  eine  so  Starke  Verengung  gebildet  werden,  dafi  die  Luft  nur  mit 
horbarer  Reibung  entweichen  kann.  Vokale  werden  als  Laute  definiert,  bei  denen  die  Luft 
weitgehend  ungehindert  iiber  Mund  oder  Nase  ausstrbmen  kann. 
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1.2.  Phonetische  Grundhgen 


1.2.1.  Phonetische  Beschreibung  der  Vokalartikulation 

Die  Vokale  werden  ublicherweise  anhand  von  4  Kriterien  phonetisch  differenziert 
([Cry95]): 


•  Angehobener  Teil  der  Zunge:  Unterscheidung  zwischen  vorderem,  inittlerem  oder 
hinterem  Abschnitt. 

•  Grad  der  Zungenhebung  in  Richtung  Gaumen:  DifFerenzierung  nach  hoher,  mittler- 
er,  tiefer  Zungenlage  oder  nach  geschlossener,  halbgeschlossener,  halboffener,  offe- 
ner  Zungenhebung. 

•  Stellung  des  Gaumensegels:  Es  ist  angehoben  bei  oralen  und  abgesenkt  bei  nasalen 
Vokalen. 

•  Art  der  Lippenoffnung:  DifFerenzierung  nach  dem  Grad  der  Lippenspreizung  oder 
Lippenrundung. 


In  Abbildung  1.5  ist  beispielhaft  die  Stellung  des  Artikulationstraktes  und  die  Positi¬ 
on  der  Zunge  Fur  die  Vokale  /i/  (hohe  Zungenlage  im  vorderen  Abschnitt),  /u/  (hohe 
Zungenlage  im  hinteren  Abschnitt)  und  /a/  {tiefe  Zungenlage  im  hinteren  Abschnitt) 
dargestellt. 

_ i  u  a 


Abbildung  1.5.:  Stellung  des  Artikulationstraktes  und  der  Zunge  bei  den  Vokalen  /i/ 
(links),  /u/  (mitte)  und  /a/  (rechts).  Der  Vokal  /y/  (iiicht  darge¬ 
stellt)  unterscheidet  sich  von  /i/  nur  durch  eine  Vorstiilpung  der  Lippen 
([Fel84]). 
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1 .  Der  Sprech  vorga  ng 


1.2.2.  PhonetlschG  Beschreibung  der  Konsonantartikulation 

Zu  den  wichtigsten  Kriterien  fur  eine  phonetische  Diflferenzierung  von  Konsonanten  z^h- 

len  ([Cry95]): 

•  Schwingungszustand  der  Stimmbander:  Schwingend  {stimmhaft)  oder  nicht  schwin- 
gend  (stimmlos)', 

•  Stellung  des  Gaumensegels:  Angehoben  (oral)  oder  abgesenkt  (nasa/); 

•  Artikulationsort; 

•  Artikulationsart. 

In  Deutschen  werden  beim  Sprechen  vorwiegend  die  folgenden  Artikulationsorte  (auch: 

Artikulationsstellen)  eingesetzt  (in  Anlehnung  an  [Cry95]): 

•  Bilabial:  Beide  Lippen  sind  an  der  Artikulation  beteiligt  (z.B.  /b/  in  Bus). 

•  Labiodental:  Der  Laut  wird  mit  der  Unterlippe  an  der  oberen  Zahnreihe  erzeugt 
(z.B.  ///  in  Fisch). 

•  Alveolar:  Der  Laut  wird  mit  der  Zungenspitze  an  den  Alveolaren  artikuliert  (z.B. 
/t/  in  Ute  oder  /s/  in  lassen). 

•  Palato-alveolar:  Der  vordere  Teil  der  Zunge  artikuliert  im  (jbergangsbereich  zwi- 
schen  Alveolen  und  hartem  Gaumen  (z.B.  ///  in  Maschen). 

•  Palatal:  Der  Zungenriicken  artikuliert  mit  dem  harten  Gaumen  (z.B.  /x/  in  Kiiche). 

•  Velar:  Der  hintere  Teil  der  Zunge  artikuliert  mit  dem  Gaumensegel  (z.B.  /k/  in 
Kette). 

•  Uvular:  Der  Zungenriicken  artikuliert  mit  dem  Zapfchen  (z.B.  eine  Ausspracheform 
von  /R/  in  Rachen). 

•  Glottal:  Die  Stimmbander  nahern  sich  einander  an,  um  einen  Verschluft  (z.B.  vor 
/a/  in  Axt)  oder  eine  Enge  zu  bilden  (z.B.  /h/  in  Hand). 


14 


1.2.  Phonetiscbe  Grundlagen 


Bei  der  Artikulation  von  Konsonanten  wird  der  Luftstrom  in  Rachen-  und  Mundhohle  von 
den  Artikulationsorganen  im  wesentlichen  auf  vier  Arten  gehemmt  (Artikulationsarten) 
(lCry95)): 

•  Vollstandiger  Verschlufi: 

—  Plosive:  An  einem  bestimmten  Punkt  des  Vokaltrakts  wird  ein  kompletter  Ver- 
schlufi  gebildet,  wobei  das  Gaumensegel  angehoben  ist.  Der  Luftdruck  hinter 
dem  VerschluR  erhoht  sich  und  wird  dann  schlagartig  abgebaut  (z.B.  /p/  in 
Pafi). 

~  Nasale:  An  einem  bestimmten  Punkt  im  Mundraum  wird  ein  kompletter  Ver- 
schlufi  gebildet,  wobei  das  Gaumensegel  abgesenkt  ist.  Die  Luft  entweicht  iiber 
die  Nase  (z.B.  /m/  in  machen). 

“  Affrikaten:  An  einem  bestimmten  Punkt  im  Mundraum  wird  ein  kompletter 
VerschlulS  gebildet;  das  Gaumensegel  ist  angehoben.  Hinter  dem  Verschlufi 
staut  sich  Luft  an,  doch  wird  dieser  Oberdruck  relativ  langsam  abgebaut.  Am 
Anfang  hat  der  Laut  deutlich  plosiven  Charakter,  doch  folgt  darauf  horbare 
Reibung  (z.B.  /ts/  in  Katze). 

•  Intermittierender  Verschlul?: 

-  Vibranten:  Ein  Artikulationsorgan  schlagt  schnell  und  wiederholt  gegen  ein 
anderes,  z.B.  bei  dem  gerollten  r  in  einigen  Aussprachevarianten. 

—  Flaps:  Ein  Artikuiationsorgan  schlagt  nur  ein  einziges  Mai  gegen  ein  anderes 
(z.B.  beim  /d/  im  englischen  Wort  ladder). 

•  Partieller  Verschluft: 

-  Laterale:  An  einer  Stelie  im  Mund  wird  ein  partieller  VerschluR  gebildet,  und 
zwar  so,  daft  der  Luftstrom  an  den  Randern  des  Verschlusses  entweichen  kann 
(z.B.  ///  in  lassen). 

•  Verengung: 

-  FYikative:  Zwei  Artikulationsorgane  nahern  sich  einander  so  weit,  daR  die 
durchstromende  Luft  horbare  Reibung  erzeugt  (z.B.  /$/  in  lassen,  ///in 
Laschen  und  /%/  in  lachen). 
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1.  Der  Sprechvoigang 


1.3.  Akustische  Grundlagen 

1.3.1.  Der  Sprachschali  als  Signal 

Der  Zweck  des  Sprechvorgangs  ist  die  Obertragung  von  Information.  Nach  der  Informa- 
tionstheorie  kann  das  Sprachsignal  daher  nach  seinem  Inform ationsgehalt  beschrieben 
werden,  Eine  andere  Mdglichkeit  ist  die  Beschreibung  des  informationstragenden  Signals 
bzw.  der  akustischen  Reprasentation  durch  den  Sprachschali. 

Die  iibertragene  Information  ist  prinzipiell  diskreter  Natur.  Jede  Sprache  bedient 
sich  einer  relativ  geringen  Anzahl  von  30  bis  50  Phonemen  (das  sind  die  kleinsten 
bedeutungsunterscheidenden  sprachlichen  Einheiten).  Vernachlassigt  man  gegenseitige 
Beeinflussungen  benachbarter  Phoneme  und  setzt  man  bei  naturlicher  Sprache  eine 
mittlere  Rate  von  10  Phonemen  pro  Sekunde  voraus,  betragt  der  tatsachlich  benotigte 
Informationsfluft  nur  ca.  60  Bit/sec. 

Fiir  die  digitale  Reprasentation  des  Sprachschalls  sind  bei  einer  reinen  Signalforincodie- 
rung  (PCM)  fiir  eine  ausreichende  Silbenverstandlichkeit  iiblicherweise  64000  Bit/sec 
erforderlich  (ISDN-Standard),  also  mehr  als  das  tausendfache.  Erst  mit  modernsten 
technischen  Verfahren  der  Quellencodierung,  wie  z.B.  beim  Digitalen  Mobilfunk  GSM, 
ist  es  gelungen,  den  erforderlichen  InformationsfluS  durch  Entfernung  von  Irrelevanz 
und  Redundanz  auf  ca.  2000  Bit/sec  zu  senken.  Der  immer  noch  vorhandene  Oberhang 
enthalt  u.a.  sprecherspezifische  Merkmale,  wie  den  typischen  Klang  einer  Stimme,  und 
auch  Nebeninformationen,  wie  z.B.  den  Gemiitszustand  des  Sprechers  (heiter  oder 
depressiv)  oder  iiber  die  Gerauschumgebung  (Fahrtwind,  Raumechos,  usw.). 

Der  folgende  Abschnitt  widmet  sich  ausschliefilich  den  spezifischen  akustischen  Ei- 
genscliaften  des  Sprachsignals,  die  fiir  Vokal-  und  Konsonantartikulation  typisch  sind. 
Hier  soli  im  wesentlichen  gezeigt  werden,  welche  Unterschiede  in  der  Zeit-  und  der 
Fi'equenzbereichsreprasentation  des  Sprachsignals  sichtbar  sind. 

1.3.2.  Signalcharakteristika  der  Vokale 

Vokale  zeichnen  sicli  durch  ein  periodisches  Zeitsignal  holier  Energie  aus.  Abbildung  1.6 
zeigt  das  Oszillogramm  fiir  den  Vokal  /a/  mit  der  charakteristischen  Wellenform  jeder 
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1.3.  Akustische  Grundlagen 


Einzelschwingung. 


Abbildung  1.6.:  Typisches  Zeitsignal  fiir  den  Vokal  /a/.  Das  Signal  ist  periodisch,  die 
Wellenform  jeder  Einzelschwingung  ist  charakteristisch. 

In  der  Prequenzbereichsdarstellung  zeigen  Vokalspektren  typische  Oberhohungen,  die  so- 
genannten  Formanten.  Die  Frequenzlage  der  ersten  beiden  Fornaanten  ist  ein  charakteri- 
stisches  Merkmal,  das  u.a.  bei  der  automatischen  Spracherkennung  herangezogen  wird. 
Abbildung  1.7  zeigt  ein  Breitband-Spektrogramm  fiir  das  Wort  Pafi. 


Zeit[s©c] 

Abbildung  1.7.;  Breitband-Spektrogramm  fiir  das  Wort  Pafi.  Der  zentrale  Vokal  tritt 
deutlich  durch  seine  typischen  Formanten  hervor. 

Die  Formanten  treten  bei  dem  zentralen  Vokal  deutlich  als  Bander  hervor.  Fiir  den  Vokal 
/a/  nehmen  die  Formanten  typisch  Werte  von  ca.  700  Hz  bzw.  1100  Hz  an. 
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1.  Der  Spvecbvoi'gang 


1.3.3.  Signalcharakterlstika  der  Konsonanten 

Ein  Teil  der  Konsonanten  laRt  sich  akustisch  in  plosive  und  frikative  Konsonanten  diffe- 
renzieren. 

Plosive  sind  meist  durch  ein  Intervall  der  Stille  gekennzeichnet,  bevor  der  Laut  hervor- 
gestoUen  wird.  Bei  den  stimmlosen  Plosiven  /p/,/t/,/k/  ist 

•  das  Stilleintervall  bis  zur  Verschlufilosung  langer, 

•  die  Intensitat  des  Lautausstofies  starker  ausgepragt  und  die 

•  Zeitspanne  bis  zum  Einsatz  der  Stimmbandschwingung  grofier  {Voice- Onset- Time 
VOT) 

als  bei  den  stimmhaften  Plosiven  /b/,/d/,/g/.  Abbildung  1.8  zeigt  das  Oszillogramm 
filr  den  stimmlosen  Plosiv  /p/  in  dem  Wort  Pafi.  Die  Stimmbandschwingung  setzt  erst 
nach  einiger  Zeit  ein. 


Abbildung  1.8.;  Typisches  Zeitsignal  fiir  den  Plosiv  /p/  und  den  Obergang  auf  einen 
nachfolgenden  Vokal.  Die  plotzHche  Verschlufilosung  bedingt  einen  star- 
ken  Anstieg  der  Amplitude,  und  es  verstreicht  eine  charakteristische 
Zeit  {VOT),  bis  die  Stimmbander  durch  den  pulmonalen  Luftstrom  zum 
Schwingen  angeregt  werden.  Die  Zeitskala  ist  identisch  zu  der  in  Abbil¬ 
dung  1.6. 

Im  Spektrogramm  gem.  Abbildung  1.7  ist  eine  weitere  Besonderheit  erkennbar.  Im 
Zeitraum  von  der  VerschluBIosung  bis  zum  Einsatz  der  Phonation  wird  der  Vokaltrakt 
durch  den  exspirierten  pulmonalen  Luftstrom  auch  ohne  Phonation  zu  Resonanzen 
angeregt.  Dadurch  treten  hier  bereits  Formantfrequenzen  auf.  Da  sich  die  Artikulatoren 
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1.4.  Prosodiscbe  Merkmale 


(in  diesem  Falle  Lippen  und  Kiefer)  bereits  in  der  VOT  auf  die  Zielstellung  fiir  den 
nachfolgenden  Vokal  zubewegen,  gehen  die  Pormanten  stetig  in  die  des  Vokals  iiber. 

Prikative  setzen  ungeordnete  Schallenergie  oder  Gerausche  frei.  Durch  die  stimm- 
lose  Anregung  hat  das  korrespondierende  Zeitsignal  keine  periodische  Struktur,  und  es 
gleicht  damit  einem  Rauschsignal.  Abbildung  1.9  zeigt  das  resultierende  Oszillogramm 
fiir  den  Prikativ  /$/. 


Abbildung  1.9.:  Typisches  Zeitsignal  fiir  den  Prikativ  /&/.  Das  Signal  ist  rauschartig,  d.h., 
ohne  jede  periodische  Struktur. 

Das  Spektrogramm  gem.  Abbildung  1.7  zeigt  am  auffalligsten  die  akustische  Charakteri- 
stik  von  Prikativen,  hier  fiir  den  Prikativ  /s/.  Bei  vergleichsweise  geringer  Gesamtenergie 
liegt  der  Hauptenergieanteil  bei  sehr  hohen  Prequenzen  oberhalb  vOn  ca.  3500  Hz. 

Die  spektralen  Eigenschaften  sind  fiir  jeden  Pi'ikativ  unterschiedlich.  Die  Energie  beim 
Prikativ  /J/  setzt  beispielsweise  bereits  friiher  als  bei  /s/  ein,  sie  fallt  dafur  auf  Grund 
der  Lippenextrusion  (Vorstiilpung)  zu  hohen  Prequenzen  hin  starker  ab. 


1,4.  Prosodlsche  Merkmale 

Vokale  und  Konsonanten  sind  die  Segmente  der  gesprochenen  Sprache,  die  zu  Silben, 
Wortern  und  Satzen  zusammengefiigt  werden.  Wahrend  der  Artikulation  dieser  Seg¬ 
mente  schwankt  die  Aussprache  jedoch  in  anderer  Hinsicht;  wir  nutzen  eine  Vielzahl 
von  stimmlichen  und  rhythmischen  Veranderungen,  die  die  Bedeutung  des  Gesagten  auf 
verschiedenste  Weise  abandern  (vgl.  [Cry95]). 

Die  wichtigsten  Effekte  beruhen  auf  den  psycho akustischen  Eigenschaften  von  Lauten, 
das  sind  die  Tonhohe  und  die  Lautstdrke.  Zusammen  mit  den  Effekten,  die  sich  aus 
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i.  Der  Sprechvorgang 


Sprechtempo  und  -ihythmus  ergeben,  werden  sie  als  prosodische  Merkmale  bezeichnet. 

Samtliche  Sprachen  scheinen  die  Unterscheidung  zwischen  fallender  und  steigender 
Tonhohe  zu  nutzen,  urn  zwischen  Aussagen  und  Fiagen  zu  differenzieren.  Zusatzlich 
lassen  sich  noch  viele  weitere  Tone  nutzen,  um  verschiedene  Nuancen  und  Betonungen 
auszudriicken  ([Cry95]). 

Die  LautstSrke  verdeutlicht  grobe  Bedeutungsunterschiede,  aber  auch  feine  Kon- 
tiaste  zwischen  den  verschiedenen  Silben  eines  Wortes.  Die  Lautstarke  von  Silben  wird 
ineist  als  Betonung  bezeichnet,  wobei  eine  Silbe  betont  oder  unbetont  sein  kann.  Der 
BegrifF  Akzent  wird  dann  verwendet,  wenn  das  Hervorheben  einer  Silbe  von  Tonhohe 
und  Lautstarke  abhangt  ([Cry95]). 

Die  Schwankungen  im  Sprechtempo  sind  eine  dritte  suprasegmentale  GroiJe.  Die 
Anzahl  der  produzierten  Silben,  Worter  und  Satze  innerhalb  einer  bestimmten  Zeit  kann 
verschiedene  Bedeutungen  vermitteln.  Ein  besonders  schnell  gesprochener  Satz  driickt 
beispielsweise  Dringlichkeit  aus,  wahrend  ein  reduziertes  Sprechtempo  Oberlegung 
Oder  Betonung  vermittelt.  Einzelne,  abgehackte  Silben  konnen  hingegen  Verargerung 
signalisieren. 

Tonhohe,  LautstS.rke  und  Sprechtempo  ergeben  zusammen  den  Rhythmus  einer 
sprachlichen  Aufierung. 
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2.  Neurogene  Sprechstorungen  und  deren 
klinische  Diagnostik 


Die  Storungen  zentralmotorischer  Programmierungs-  und  Steuerungsprozesse  des 
Sprechbewegungsabkufs  werden  unter  dem  Begriff  ,der  neurogenen  Sprechstorungen 
zusammengefaKt  (|Zie85]). 

Ausgenommen  sind  dabei  also  alle  Storungen,  die  durch  lokale  Veranderungen  an  den  be- 
teiligten  Organen  verursacht  werden  (z.B.  Stimmbandknotchen,  Kiefer-Gaumen-Spalten, 
Makroglossie  etc.),  die  Sprachentwicklungsstbrungen  (einschlieBIich  des  angeborenen 
Stottersyndroms  und  der  Sprechstorungen  bei  Gehorlosen)  und  die  psychogenen  (d.h. 
die  Intelligenz  oder  Aufmerksamkeit  betrefFenden)  Sprechstorungen  ([Zie85]). 
Ausgenommen  sind  auch  die  Sprechstorungen,  die  auf  einer  Schadigung  peripherer, 
die  Sprechmuskulatur  innervierender  Neurone  bei  intakter  zentralnervoser  Steuerung 
beruhen  (z.B.  Rekurrensparese,  periphere  Facialisparese  etc.)  ([Zie85]). 

Eine  weitere  Abgrenzung  muB  zu  den  Beeintrachtigungen  „h6herer"Prozesse  der 
Sprachverarbeitung,  den  Aphasien,  getroffen  werden:  bei  den  aphasischen  Syndromen 
erstreckt  sich  die  Storung  (wenn  auch  in  unterschiedlicher  AusprSgung)  auf  alle  ex- 
pressiven  (d.h.  Sprechen  und  Schreiben)  und  rezeptiven  (d.h.  Verstehen  und  Lesen) 
Modalitaten,  wahrend  bei  den  neurogenen  Sprechstorungen  ausschlieBlich  die  miind- 
liche  Sprachproduktion  in  ihren  motorischen  Aspekten  beeintrachtigt  ist.  Eine  klare 
Differenzierung  zwischen  sprechmotorischen  und  sprachsystematischen  Storungen  der 
Lautproduktion  bei  aphasischen  Patienten  ist  jedoch  nicht  immer  leicht  mbglich  ([Zie85]). 

Unter  den  neurogenen  Sprechstorungen  differenziert  man  die 

•  Dysarthrien,  die  alle  Storungen  der  Kontrolle  von  Kraft,  Bewegungstempo  und 
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2.  Neurogene  Sprechstdrungen  und  deren  klinische  Diagnostik 

Bewegungsumfang  bei  der  Ausfiihrung  von  Sprechbewegungen  umfassen,  und  die 

•  Sprechapraxie,  die  als  Storung  der  Programmierung  von  Sprechbewegungen  gilt 
((Zie93b]). 

2.1.  Atiologien 

Beeintrachtigungen  der  zentralnervosen  Steuerung  des  Sprechbewegungsapparates  kon- 
nen,  wie  die  iibrigen  zentral-motorisclien  Storungen,  bedingt  sein  durch 

•  entzundlicbe  Oder  degenerative  Prozesse, 

•  Neoplasmen  (Geschwulste  oder  Tumore), 

•  vaskulare  Erkrankungen  (Gefafierkrankungen), 

•  Schadel-Hirn-lVaumen  (Verletzungen  durch  Gewalteinwirkung). 

Die  haufigste  Ursache  bildet  die  Gruppe  von  Erkrankungen,  die  unter  dem  Sammelbegriff 
Schlaganfall  zusammengefaSt  wird.  Hierzu  gehoren  Hirninfarkte  (vaskulare  zerebellare 
Insulte)  und  innere  Blutungen  des  Gehirns. 

Die  zweithaufigste  Ursache  mit  ca.  20000  Fallen  pro  Jahr  ([MumOO])  wird  dutch  die 
Gruppe  der  Schadel-Hirn-TVaumen  gebildet,  vor  allem  bedingt  durch  Verkehrsunfalle. 
Die  Angaben  zur  Auftretenshaufigkeit  dysarthrischer  Storungen  bei  Patienten  mit 
schwerem,  gedeckteni  Schadel-Hirn-Tiauma  schwanken  zwischen  30  und  50  Prozent 
((Gilc79],(Sar86),(Zie87],[Pro88]). 

Die  bedeutendste  degenerative  Erkrankung  des  zentralen  Nervensystems  ist  das 
Parkinson-Syndrom,  bei  dem  in  80  Prozent  aller  Falle  mit  einer  Beeintrachtigung  von 
Sprechatmiing,  Stimme  und/oder  Artikulation  gerechnet  werden  muS  (vgl.  [Ack89}). 

Von  den  an  Multipier  Sklerose  erkrankten  Patienten  sind  nach  amerikanischen  Schat- 
zungen  mehr  als  die  Halfte  von  Sprechstorungen  betroffen  ([Dar85j). 

Bei  den  selteneren  Erkrankungen  wie  der  Chorea  Huntington,  der  myatrophen  La- 
teralsklerose  (ALS)  oder  den  degenerativen  Erkrankungen  des  Kleinhirns  kommt 
ebenfalls  in  der  Mehrheit  aller  Falle  eine  Beeintrachtigung  der  Sprechmotorik  vor 
{[Hus73],[Gilm81],[Dar85]). 
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2.2.  Syndrome  und  StorungsprofiJe 


2.2.  Syndrome  und  Storungsprofile 

2.2.1.  Dysarthrien 

Dysarthrien  sind  erworbene  neurogene  Sprechstdrungen.  Sie  werden  durch  eine  Schddi- 
gung  des  zentralen  oder  des  peripheren  Nervensy stems  verursacht  und  beruhen  auf  einer 
Beeintrdchtigung  der  Steuerung  und  Ausfuhrung  von  Sprechbewegungen  [Zie98b]. 

Dysarthrische  Storungen  entstehen  durch  Schadigung  neuronaler  Strukturen,  die 
an  der  Steuerung  der  Bewegungen  von 

•  Atmungsmuskulatur, 

•  Kehlkopf, 

•  velopharyngealer  Muskulatur, 

•  Zunge, 

•  Kiefermuskulatur  und 

•  Lippen 

beteiligt  sind.  Es  handelt  sich  daher  um  eine  sprechmotorische  Storung,  genauer  um  eine 
Beeintrachtigung  „eIemenfcarer"Prozesse  der  Bewegungsausfiihrung,  nicht  etwa  um  Sto¬ 
rungen  von  Prozessen  der  Planung  oder  Programmierung  von  Sprechbewegungen. 

Es  lassen  sich  mehrere  Dysarthrieformen  unterscheiden,  denen  jeweils  Schadigungsme- 
chanismen  mit  zugehorigen  prototypischen  Beschreibungen  der  Syndrome  nach  auditiven 
Merkmalen  zugrunde  liegen.  Die  nachfolgende  Differenzierung  ergibt  sich  nach  der  Art 
der  Bewegungsstorung. 

Schlaffe  Parese;  Bei  der  schlafFen  Parese  tritt  eine  Minderung  der  Kraft  und  ein  Er- 
schlaffen  der  betroffenen  Muskulatur  ein.  Dies  kann  auch  zu  isolierten  Storungen  der 
Atmung,  Stimme  oder  Artikulation  fiihren.  Beobachtet  wird  u.a.  eine  Beeintrachtigung 
der  Adduktionsfahigkeit  der  Stimmlippen,  eine  verlangsamte  und  wenig  differenzierte 
Zungenbewegung  mit  verringerter  Bewegungsamplitude  sowie  eine  Kieferheberschwache 
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2.  Neiirogene  Sprechstdrungen  und  deren  klwische  Diagnostik 

mit  verlangsamter  Aitikulation  und  unvollstandigem  Mundschlufi. 

Auditiv  werden  bei  der  schlaffen  Dysarthrie  Merkmale  wie  eine  verkurzte  Exspiration, 
eine  behauchte  und  rauhe  Stimmqualitat  und  eine  reduzierte  Lautstarke  bei  erniedrigter 
Stimmlage  beschrieben.  Die  Artikulation  ist  unscharf  und  hypernasal.  Das  Sprechen  ist 
verlangsamt  bei  monotoner  Intonation  und  vermehrten  Sprechpausen  (vgl.  [Zie98b]). 


Spastische  Parese:  In  der  klinischen  Diagnostik  der  Gliedmafienmotorik  wird  Spastizi- 
tat  im  allgemeinen  als  ein  konibiniertes  Storungsmuster  bestehend  aus  erhohtem  Muskel- 
tonus,  gesteigerten  Eigenreflexen  und  gestorter  Feinmotorik  verstanden.  Dieses  Konzept 
der  Spastizitat  ist  nur  bedingt  auf  die  Sprechmotorik  iibertragbar.  Dennoch  gibt  es  eine 
Reihe  von  Anzeichen,  die  fur  das  Vorliegen  eines  der  Spastizitat  vergleichbaren  Syndroms 
bei  dysarthrischen  Patienten  sprechen: 

Die  wiUkurliche  Beweglichkeit  der  einzelnen  am  Sprechbewegungsablauf  beteiligten  Or¬ 
gans  ist  eingeschrankt  oder  aufgehoben,  eine  Tonussteigerung  der  Muskulatur  laSt  sich 
aus  der  sichtbaren  Kontraktion  erschlieUen  („zigarrenfdrmige“Zunge,  verkurzte  oder  ve- 
dickte  Stimmbander),  und  die  reflektorische  Beweglichkeit  ist  erhalten. 

Fiir  das  auditive  Storungsbild  sind  Artikulationsunscharfe,  Verlangsamung,  Hypernasa- 
litat  und  eine  monotone  Sprechweise  charakteristisch.  Wahrend  bei  der  schlaffen  Parese 
eine  behauchte  Stimmqualitat  bei  erniedrigter  Stimmlage  wahrgenommen  wird,  ist  bei 
der  spastischen  Parese  die  Stimmqualitat  geprefit  bei  insgesamt  eher  erhohter  Stimmlage 
(vgl.  (Zie98b|). 


RigiditSt;  Die  betroffenen  Gliedmafien  bauen  hier  einen  beschleunigungsunabhangigen 
Widerstand  auf  und  verharren  danach  in  der  eingenommenen  Position.  Die  Rigiditat  ist 
eines  der  Kardinalsymptome  der  Parkinson’schen  Erkrankung.  Da  sich  der  Beitrag  einer 
rigiden  Komponente  zum  Storungsbild  der  Parkinson-Dysarthrie  nur  schwer  von  anderen 
Komponenten  der  Parkinson’schen-Bewegungsstorung  trennen  laftt,  sind  die  Merkmale 
dieser  Sprechstdrung  mit  den  hypokinetischen  Merkmalen  der  Parkinson-Dysarthrie  zu 
einem  rigid-hypokinetischen  Syndrom  zusammengefafit  (vgl.  [Zie98b]);  eine  Erlauterung 
hierzu  folgt. 
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2.2.  Syndrome  und  Stdrungsprofile 


Aktnesie:  Der  Begriff  Akinesie  charakterisiert  die  klinische  Beobachtung  eines  Fehlens 
Oder  einer  deutlichen  Reduktion  von  Willkurbewegungen,  wobei  die  betroffene  Muskula- 
tur  nicht  paretisch  (d.h.  nicht  gelahmt)  ist.  Dieses  Symptom  ist  typisch  fiir  Parkinsonis- 
mus  ([Zie98b]). 

MARSDEN  fafit  unter  dem  BegrifF  der  Akinesie  drei  Komponenten  zusammen:  Eine  Sto- 
rung  der  Bewegungsinitiierung,  eine  Reduktion  des  Bewegungsumfangs  {Hypokinesie) 
und  eine  Verlangsamung  von  Bewegungen  {Bradykinesie)  {|Mars89]). 

Das  Dysarthriesyndrom,  das  fiir  Parkinsonkranke  charakteristisch  ist,  wurde  von  DAR- 
LEY  als  hypokinetische  Dysarthrie  bezeichnet  ([Dar75]).  Nachdem  die  hypokinetisclie 
und  die  (bei  Parkinsonismus  ja  ebenfalls  vorhandene)  rigide  Komponente  der  Sprech- 
bewegungsstorung  auditiv  nicht  auseinanderzuhalten  sind,  wurde  der  Begriff  der  rigid- 
hypokinetischen  Dysarthrie  eingefiihrt  {[Zie98b]). 

Die  betroffenen  Patienten  sprechen  typischerweise  leise,  die  Sprechstimmlage  ist  aufgrund 
des  erhbhten  Tonus  der  Stimmlippen  haufig  zu  hoch.  Die  Stimme  ist  behaucht  und  rauh. 
Sie  ist  wenig  modulationsfahig  und  klingt  monoton.  In  ausgepragteren  Fallen  ist  die 
Artikulationsscharfe  reduziert  (vgl.  [Zie98b]). 


Dyskinesien:  Unter  diesem  Begriff  werden  unterschiedliche  Formen  unwillklirlicher 
Muskelaktivation  zusammengefaSt.  Bei  der  choreatischen  Form  treten  Sprechstorungen 
auf,  die  auditiv  durch  unwillkurliche  Unterbrechungen  des  Redeflusses,  abrupte  Veran- 
derungen  von  Stimmqualitat,  Tonhohe  oder  Lautstarke  und  verlangsamte,  zeitweise  „ex- 
plosive‘‘Artikulation  ([Ram86|)  charakterisiert  sind. 

Bei  den  dystonischen  Formen  werden  Sprechstorungen  wie  intermittierende  Artikulati- 
onsstorungen,  gepreRte  und  rauhe  Stimmqualitat  sowie  Stimmabbriiche  beobachtet. 

Bei  der  Form  der  Myoklonie  treten  beim  Sprechen  periodische  Schwankungen  von  Ton¬ 
hohe  und  Lautstarke  auf. 


Ataxie:  Patienten  mit  Ataxien  im  Rahmen  eines  zerebellaren  Syndroms  zeigen  Sto- 
rungen  der  Bewegungskoordination,  Intentionstremor,  Bewegungsverlangsamung  sowie 
Gang-  und  Standunsicherheit. 

Die  auditiven  Leitsymptome  der  ataktischen  Dysarthrie  ergeben  sich  aus  dem  Charak- 
ter  der  ataktischen  Bewegungsstorung.  Es  kann  zu  inadaquaten  Einatmungspausen,  in 
ausgepragtem  Fall  auch  zu  inspiratorischem  Sprechen  kommen;  die  Stimmqualitat  und 
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2.  Neurogene  Spreciistorungen  und  deren  klinische  Diagnostik 

die  Tonhohe  und  Lautstarke  variieren.  Auch  die  artikulatorischen  Stdrungen  fluktuieren; 
Phasen  mit  reduzierter  Artikulationsscharfe  konnen  unit  „explosiver“,  stark  fortisierter 
Artikulation  wechseln.  Die  Artikulation  ist  insgesamt  verlangsamt  und  durch  Lautdeh- 
nungen  oder  verlangerte  Pausen  charakterisiert.  Es  kommt  zu  Verlangsamungen  und 
Auffalligkeiten  in  der  Zeitstruktur  auf  Satzebene  (vgl.  [Zie98b]). 

Tremor:  Unter  diesem  Begriff  werden  unwillkiirliche  rhythmisch-oszillatorische  Bewe- 
gungen  der  Extremitaten,  dea  Kopfes  oder  Rumpfes  oder  der  am  Sprechen  beteiligten 
Muskulatur  zusammengefaSt.  Der  Stimmtremor  ist  durch  rhythmische  Oszillationen  von 
Tonhohe  und  Lautstarke  clrarakterisiert.  Er  kann  aus  einem  TVemor  unterschiedlicher 
Muskelgruppen  resultieren  (vgl.  [Zie98b)). 

Stdrungen  des  Redeflusses:  Erworbene  neurogene  Storungen  des  Redeflusses  (z.B.  „er- 
worbenes  Stottern")  werden  ublicherweise  nicht  als  dysarthrische  Storungen  gesehen.  Al- 
lerdings  wird  nach  heutiger  Auffassung  das  wahrend  der  Sprachentwicklung  auftretende 
Stottersyndrom  eindeutig  als  sprechmotorische  Storung  interpretiert  ([Hul98]).  Daher 
sollte  auch  die  erworbene  neurogene  Form  dieses  Syndroms  im  Zusammenhang  mit  den 
Dysarthrien  diskutiert  werden  (vgl.  [Zie98b]). 

2.2.2.  Sprechapraxle 

Die  Sprechapraxle  wird  in  der  Literatur  als  eine  Storung  der  Programmierung  von 
Sprechbewegungen  gekennzeichnet. 

Gegeniiber  den  aplrasisch  bedingten  phonologischen  Storungen,  welche  gemeinhin  als 
Defizite  abstrakter  sprachlicher  Prozesse  und  Konzepte,  insbesondere  der  Selektion  und 
Sequenzierung  von  Phonemen,  betrachtet  werden,  findet  eine  Abgrenzung  statt,  da  diese 
vermutlich  auf  einer  hoheren  Verarbeitungsebene  anzusiedeln  sind  ((Zie91]). 

Das  derzeitige  Sprechapraxie-Konzept  ist  jedoch  nicht  unumstritten,  well  die  Isolierung 
von  sprechmotorischen  Programmierungsprozessen  gegeniiber  anderen  Komponenten 
innerhalb  des  Gesamtprozesses  der  Ti'ansformation  von  Wbrtern  und  Satzen  in  Sprech¬ 
bewegungen  nur  bedingt  moglich  ist.  Ungeachtet  dessen  steht  die  klinische  Bedeutung 
des  als  Sprechapraxle  bezeichneten  Storungsbildes  auRer  Frage. 

Sprechapraktische  Storungen  finden  sich  auf  der  Ebene  der  Lautbildung  (segmentale 
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2.2.  Syndrome  uiid  StorungsproRle 


Ebene),  der  Prosodie  (suprasegmentale  Ebene)  und  der  Ebene  der  linguistisch  nicht 
beschreibbaren  besonderen  Merkmale  beim  Sprechen  (Sprechverhalten). 

Auf  segmentaler  Ebene  werden  hierbei  folgende  Symptome  differenziert; 

•  Phonetische  Entstellungen:  Der  betreffende  Laut  wird  nicht  korrekt  gebildet,  je- 
doch  kann  er  immer  noch  der  Kategorie  des  Ziellautes  zugeordnet  werden.  Es  wer¬ 
den  Langungen  von  Lauten,  Denasalierung  nasaler  Konsonanten,  Entstimmung  von 
stimmhaften  Konsonanten,  iibermafiige  Behauchung  stimmloser  Plosive,  unschar- 
fe  Prikativrealisierung  oder  eine  Vor-  und  Riickverlagerung  lingualer  Konsonanten 
(vgl.  [Ode90],[Zie86],[Vog88])  beobachtet. 

•  Phonematische  Paraphasien:  Der  Patient  lafit  einen  Laut  aus,  fiigt  einen  zusatzli- 
chen  Laut  hinzu  oder  er  realisiert  anstelle  des  vorgesehenen  Ziellauts  einen  alter- 
nativen  Laut,  den  er  hingegen  korrekt  artikuliert. 

•  Mischformen  phonetischer  Entstellungen  und  phonematischer  Paraphasien:  Anstel¬ 
le  des  erwarteten  Phonems  wird  eine  andere  Lautkategorie  realisiert,  diese  aber 
durch  Fehlartikulation  phonetisch  entstellt. 


Phonematische  Fehler  sind  nicht  nur  bei  Sprechapraxiepatienten,  sondern  auch  bei 
Aphasikern  ohne  Sprechapraxie  beobachtbar.  Lautentstellungen  sind  dagegen  fur  dys- 
arthrische  Patienten  typisch.  Im  Falle  der  Dysarthrie  sind  diese  Fehler  jedoch  konstant 
und  somit  in  gewisser  Weise  vorhersagbar.  Dies  gilt  jedoch  nicht  fur  die  Sprechapraxie, 
da  hier  die  auftretenden  Fehler  variabel  und  unvorhersagbar  sind  ([Zie89]). 

Man  spricht  in  diesem  Zusammenhang  von  der  fiir  Sprechapraxie  typischen  Inkonstanz 
und  Inkonsistenz  von  Fehlern. 

Auf  suprasegmentaler  Ebene  werden  Storungen  der  Prosodie  beschrieben.  Ein  markantes 
Merkmal  hierfur  ist  das  silbische  (abgehackte)  Sprechen,  dessen  Eindruck  vor  allem 
durch  intersilbische  Pausen,  die  Betonung  oder  Langung  von  Nebensilben  oder  eine 
mangelhafte  Koartikulation  an  Silbengrenzen  entsteht.  Der  Intonationsverlauf  ist  durch 
Sprechpausen  oder  Iterationen  von  Lauten  oder  Silben  beeinfluiJt,  die  zeitliche  Struktur 
von  Wortern  und  Satzen  hingegen  durch  Lautdehnungen  und  -auslassungen  gestort. 
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Das  Sprechverhalten  ist  bei  den  meisten  sprechapraktischen  Patienten  von  suchenden  Be- 
wegungen  der  Artikulationsorgane  gepragt  (Suchverholten).  Meist  ist  dieses  Suchen  mit 
Sprechpausen  verbunden.  Es  tritt  am  haufigsten  bei  der  Initiierung  eines  Wortes  oder 
Satzes  auf.  Zum  Teil  verlaufen  diese  Suchbewegungen  stumm,  zum  Teil  sind  sie  aber 
auch  horbar.  Die  so  produzierten  Laute  konnen  sogar  teilweise  einer  Phonemkategorie 
zugeordnet  und  so  als  erganzende  Laute  interpretiert  werden,  wodurch  sich  ein  Brucken- 
schlag  zu  den  segmentalen  Fehlern  ergibt. 

Daneben  laRt  sich  das  Merkmal  der  Sprechanstrengung  beobaciiten.  Es  ist  aber  nur  schwer 
fa^bar,  da  auch  andere  Verhaltensweisen  des  Patienten  wie  ein  starkes  Suchverhalten  und 
der  hieraus  resultierende  unfliissige  SprechfluE  oder  eine  erhohte  Sprechstimmlage  auf  ei- 
ne  Sprechanstrengung  hindeuten  konnten  (vgl,  [Tei95]). 


2.3.  Untersuchungsverfahren 

Der  Hauptteil  der  Diagnostik,  soweit  sie  in  der  Verantwortung  von  Sprachtherapeuten 
liegt,  beruht  auf  einer  auditiven  Analyse  der  AuJSerungen  des  Patienten.  Streng  genom- 
men  handelt  es  sich  hierbei  nicht  ausschliefilich  um  einen  Horbefund,  da  einige  wichtige 
Zusatzinformationen  auch  gesehen  oder  getastet  werden  konnen.  Der  Nachteil  einer  Dia- 
guostik  auf  perzeptiver  Grundlage  liegt  jedoch  auf  der  Hand: 

•  Die  Befunde  sind  subjektiv  und  ihre  Qualitat  hangt  von  der  Schulung  und  Erfah- 
rung  des  Untersuchers  ab. 

•  Aus  den  horbaren  Merkmalen  kann  nur  in  sehr  unzulanglicher  Weise  auf  die  zu- 
grundeliegende  Bewegungsstorung  geschlossen  werden. 

Diese  Schwachen  konnen  unter  anderem  durch  Verwendung  gezielter  diagnostischer 
Aufgaben  und  eine  Vereinfachung  der  Beurteilungskriterien  einigermaSen  wettgemacht 
werden  (vgl.  [Zie98b]). 
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2.3.  Untersuchungsverfahren 


2.3.1.  Verfahren  in  der  Dysarthriediagnostik 

2. 3. 1.1.  Auditive  Verfahren 

Die  auditive  Diagnostik  laSt  sich  in  die  Allgemeine  Beobachtung,  die  Analyse  pho- 
netischer  Storungsmerkmale  und  die  Analyse  der  Verstandlichkeit  differenzieren.  Die 
Beurteilung  der  Sprechfahigkeit  erfolgt  zum  einen  anhand  der  spontanen  AuiJerungen 
eines  Patienten  im  Rahmen  eines  Gesprachs,  z.B.  des  Anamnesegesprachs,  zum  anderen 
anhand  von  Aufgabenstellungen,  bei  denen  der  Patient  spezifische  Aufierungen  produ- 
zieren  (meist  nachsprechen)  soli. 


Allgemeine  Beobachtung:  Die  Allgemeine  Beobachtung  bezieht  sich  hier  auf  die 
Kdrperhaltung  des  Patienten  und  auf  sichtbare  Storungsmerkmale  wie  pathologischer 
Atmungstyp,  Storungen  von  Tonus  und  Bewegungsfahigkeit  der  Lippen  und  des  Kiefers, 
und  auf  Dyskineslen,  auf  ataktische  Zeichen  oder  einen  Tremor  der  Gesichts-,  Rumpf- 
und  Extremitatenmuskulatur  (vgl.  (Zie98b]). 


Analyse  phonetischer  Storungsmerkmale:  Bei  der  Analyse  phonetischer  Storungs¬ 
merkmale  steht  die  funktionsorientierte  Diagnostik  der  Sprechstdrung  nach  den 
Funktionskreisen  der  Sprechatmung,  der  Phonation  und  der  Artikulation  im  Vor- 
dergrund.  Jede  dieser  Storungskomponenten  kann  dabei  anhand  einer  Auswahl  von 
charakteristischen  Symptomen  beschrieben  werden. 

Das  Vorliegen  dieser  Symptome  wird  einerseits  anhand  der  spontanen  AuSerung  des 
Patienten  ermittelt,  zum  anderen  gezielt  mit  Hilfe  von  spezifischem  Sprachmaterial 
gepriift.  Schliefilich  kann  es  auch  sinnvoll  sein,  in  „Maximalleistungsaufgaben“die 
Leistungsgrenzen  des  Patienten  auszuloten  ([Zie98b]).  Die  Analyse  der  Spontansprache 
liefert  zweifellos  die  alltagsrelevantesten  Aussagen,  wahrend  die  Beurteilung  von  speziell 
ausgewahltem  Sprachmaterial  meist  eine  hohere  diagnostische  Spezifitat  ermdglicht. 
Maximalleistungsaufgaben  sind  in  der  Regel  sensitiver  als  sprachliche  Aufgaben,  wegen 
ihres  nichtsprachlichen  Charakters  lassen  sie  jedoch  nur  bedingt  Ruckschliisse  auf  die 
Sprechstdrung  zu  ((Zie98c]). 
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Der  Grad  und  das  Ausmafi  einer  Sprechatmungsstdrung  kann  anhand  verschiede- 
ner  Merkinale  zur  Beschreibung  eines  pathologischen  Atmungstyps,  respiratorischer 
Insuffizienz  und  gestorter  Lautstarkekontrolle  manifestiert  werden.  Da  die  Einatmungs- 
haufigkeit  in  der  Spontansprache  nur  schwer  zu  beurteilen  ist,  werden  in  der  Praxis  haufig 
aucJj  Zahlaufgaben  verwendet,  d.h.,  der  Patient  zahlt  in  ,^ugigem“Tempo  von  1-20. 
Gesunde  Personen  benotigen  bei  dieser  Aufgabe  selten  mehr  als  eine  Zwischenatmung. 
Die  Einatmungspausen  lassen  sich  in  ein  vorgefertigtes  Schema  eintragen  und  auszahlen. 
Eine  weitere  Aufgabe  ist  die  Lauthalteaufgabe,  bei  der  der  Patient  gebeten  wird, 
einen  vorgegebenen  Laut  so  lange  wie  moglich  anzuhalten.  Die  Haltedauer  wird  mit 
einer  Stoppuhr  oder  iin  Spracheditor  eines  Computers  gemessen  und  mit  Normwerten 
verglichen.  ZIEGLER  und  seine  Mitarbeiter  ermittelten  in  einer  Untersuchung  an 
200  Dysarthriepatienten  bei  dieser  Vorgehensweise  in  58  Prozent  der  Falle  verkiirzte 
Vokalhaltedauern  und  in  68  Prozent  der  Falle  verkiirzte  Frikativhaltedauern.  Der 
Einflufi  eines  velopharyngealen  Luftverlusts  lalSt  sich  bei  Lauthalteaufgaben  durch  eine 
Nasenklammer  feststellen  (vgl.  [Zie98b]). 

Zur  Untersuchung  einer  Siiininstdrung  stehen  Merkmale  zur  Beurteilung  der  Stimmqua- 
litat  (rauh,  behauchtj  gepreRt),  der  Stimmstabilitat  (Tonhohen-  und  Lautstarkeschwan- 
kungen,  Stimmschwund,  Stimmzittern  oder  Stimmabbruch)  und  von  Verschiebungen 
der  Stimmlage  (zu  hoch,  zu  tief,  zu  laut  oder  zu  leise)  zur  Verfiigung.  Durch  Nach- 
sprechaufgaben  konnen  hierbei  spezifische  Anforderungen  an  die  Einstellbewegung  der 
Stimmlippen  beim  Stimmeinsatz  gepriift  werden. 

Eingesetzt  wei'den  auch  haufig  Maximalleistungsaufgaben  wie  die  Aufgabe  der  ma- 
ximalen  Vokallialtedauer,  die  beispielsweise  Aufschlufi  iiber  die  Vollstandigkeit  der 
Glottisadduktion  geben  kann.  Einige  Stimmqualitatsmerkmale  wie  Tonhohenschwan- 
kungen,  Lautstarkeschwankungen  oder  Stimmzittern  sind  zudem  anhand  gehaltener 
Vokale  leichter  zu  diagnostizieren  als  anhand  der  Spontansprache.  Zur  Priifung  des 
Tonhohenumfangs  werden  Tonhohenvariationsaufgaben  eingesetzt  (vgl.  [Zie98b]). 

Bei  der  Untersuchung  der  Artikulationsstorung  werden  die  einzelnen  beteiligten 
Subsystems  wie  z.B.  Gaumensegel,  Lippen  und  Zunge  moglichst  selektiv  iiberpriift. 
Dabei  sind  vor  allem  die  Bewegungen  von  Lippen  und  Kiefer,  zum  Teil  auch  der 
Zunge,  visuell  beurteilbar.  Auditiv  werden  anhand  der  Spontansprache  Merkmale  zur 
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Beschreibung  der  Kieferoffnung,  der  Konsonantartikulation,  der  Vokalartikulation, 
abweichender  Arfcikulationsstellen  oder  der  Nasalitat  verwendet. 

In  Nachsprechaufgaben  kann  man  sich  eine  phonematische  Systematik  des  eingesetzten 
Vokal-  und  Konsonantinventars  zunutze  machen,  um  spezifische  artikulatorische  Punk- 
tionen  gezielt  zu  untersuchen.  Es  liegt  nahe,  hier  Satze  und  Wdrter  mit  einer  Haufung 
von  Sprachlauten  vorzugeben,  die  vorwiegend  dutch  ein  bestimmtes  artikulatorisches 
Organ  gebildet  werden.  Um  artikulatorische  Ablaufe  an  der  Leistungsgrenze  zu  untersu¬ 
chen,  sind  Maximalleistungsaufgaben  in  der  Form  Schneller  Silbenwiederholungen  bzw. 
artikulatorischer  Diadochokinese  verbreitet.  Dabei  mufi  eine  vorgegebene  Silbe-  oder 
Silbenfolge  so  rasch  wie  moglich  wiederholt  werden.  Im  einfachsten  Fall  wird  dabei  die 
Zahl  der  Silben  innerhalb  eines  festen  Zeitintervalls  bestimmt,  wodurch  jedoch  nur  die  er- 
reichte  Silbenrate,  nicht  jedoch  Unregelma£igkeiten  beriicksichtigt  werden  (vgl.  [Zie98b)). 

Storungen  der  Prosodie  konnen  anhand  von  Merkmalen  zur  Beschreibung  von 
Sprechtempo  (verlangsamt  oder  beschleunigt),  Redeflul^  (Lautdehnungen,  Pausen, 
Iterationen),  Rhythmus/Akzent  (Betonung  von  Nebensilben,  silbisches  Sprechen)  und 
Intonation  (monotones  Sprechen)  beschrieben  werden.  Da  Sprechtempo  und  RedefluS  bei 
freiem  Sprechen  auch  durch  Sprachproduktionsprobleme  auf  der  Ebene  vorsprachlicher 
kognitiver  Prozesse  oder  auf  verschiedenen  Ebenen  der  sprachlichen  Enkodierung  gestort 
sein  konnen,  sollte  dieser  Aspekt  der  Pro,sodie  zusatzlich  durch  Nachsprech-  oder 
Leseaufgaben  geprvift  werden  ([Zie98b]), 

Durch  die  beschriebenen  qualitativen  Merkmale  und  Beurteilungskriterien  ergibt 
sich  -  zusammen  mit  den  Ergebnissen  verschiedener  Zusatzuntersuchungen  -  ein 
umfassendes  Bild  von  der  Gesamtstorung.  Sieht  man  von  den  beschriebenen  Maximal¬ 
leistungsaufgaben  ab,  so  enthalt  diese  Beschreibung  allerdings  noch  keine  quantitative!! 
Aussagen  iiber  das  AusmaS  der  Storung  in  den  verschiedenen  Bereichen.  Dazu  werden  die 
Beurteilungsmerkmale  auf  geeigneten  Skalen  bewertet  (vgl.  [Zie98b]).  Das  bekannteste 
Beispiel  soldier  Skalen  ist  das  von  DARLEY  und  Mitarbeitern  ([Dar75])  entwickelte 
auditive  Beurteilungssystem,  welches  jedoch  auf  Grund  seiner  nicht  hinreichenden 
Objektivitat  nicht  unumstritten  ist.  Alternativ  wurde  daher  von  ZIEGLER  ([Zie98b]) 
die  Verwendung  eines  Systems  mit  einer  verringerten  Anzahl  und  weniger  differenzierten 
Skalen  als  nach  DARLEY  verges  chi  agen,  deren  einzelne  Auspragungsniveaus  operational 
beschrieben  werden. 
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Analyse  der  VerstSndlichkeit:  Die  bisher  beschriebene  Diagnostik  erlaubt  noch  keine 
Riickschliisse  auf  die  hieraus  resultierenden  kommunikativen  Einschrankungen  des 
Patienten.  Die  Verstdndlichkeit  zahlt  wohl  zu  den  wichtigsten  Kriterien. 

Fiir  eine  Verstandlichkeitsmessung  werden  drei  Gruppen  von  Verfahren  unterschieden; 
Schatzskalen,  Tianskriptionsverfahren  und  Wortidentifikationsverfahren. 

Die  Verstandlichkeitsskala  des  National  Institute  for  the  Deaf  entstammt  dem 
Bereich  der  Diagnostik  von  Sprechstorungen  horgeschadigter  Patienten,  Die  Aus- 
pragungsstufen  werden  auf  einer  fiinfstufigen  Skala  von  „unverstandlich“bis  „v6llig 
ver6tandlich“beschrieben.  Trotz  psychometrischer  Unzulanglichkeiten  besitzt  diese  Skala 
eine  vergleichsweise  hohe  Reliabilitat  (vgl.  [Zie98b]). 

Bei  den  Transkiiptionsverfahren  werden  die  vom  Patienten  gesprochenen  Aufte- 
rungen  durch  den  Untersucher  Wort  fur  Wort  transkribiert.  Die  Zahl  der  falsch  oder 
nicht  transkribierten  Worter  dient  dabei  als  VerstandlichkeitsmaS  ([Yor84]).  Da  die  in 
einem  sinnvollen  Satz  enthaltenen  Worter  aufgrund  des  Kontextes  unterschiedlich  gut 
vorhersagbar  sind,  hangt  das  Resultat  entscheidend  von  der  Struktur  des  gewahlten 
Sprachmaterials  ab.  Fur  die  klinische  Standarddiagnostik  erscheint  diese  Klasse  von 
Verfahren  daher  weniger  gut  geeignet  ([Zie94)). 

Bei  den  Wortidentifikationsverfahren  mufi  der  Beurteiler  die  Worter  einer  vom  Patienten 
gesprochenen  Wortliste  unter  einer  Auswahl  von  ahnlich  klingenden  Alternativen  identi- 
fizieren.  Der  Verstandlichkeitsvvert  ergibt  sich  aus  der  Anzahl  der  korrekt  identifizierten 
Worter,  Das  Miinchner  Verstandlichkeitsprofil  ([Zie93a])  hat  sich  hier  als  reliabel  und 
valide  fiir  die  Verstandlichkeitsbeurteilung  dysarthrischer  Patienten  herausgestellt.  Es 
erfordert  fiir  die  Durchfiihrung  ein  speziell  dafiir  entwickeltes  Computerprogramm 
((Ahr92)). 


2. 3. 1.2.  Akustische  Verfahren 

Eine  Analyse  der  Arbeitsmethoden  in  der  klinischen  Diagnostik  neurogener  Sprech¬ 
storungen  zeigt,  dafi  hier  -  wie  bereits  beschrieben  -  vorwiegend  auditive  Verfahren 
zum  Einsatz  komnien,  d.h,,  ein  geschulter  Horer  beurteilt  einen  Patienten  nach  seinem 
personlichen  Horeindruck.  Solche  Horersitzungen  sind  zeitintensiv  und  subjektiv. 
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Akustisch-phonetische  Verfahren,  also  der  unterstutzende  Einsatz  technischer  Systeme, 
tragen  hier  zu  einer  Objektivierung  des  klinischen  Bildes  bei.  Im  Gegensatz  zum 
Horeindruck  besteht  hier  insbesondere  die  Moglichkeit,  Verlaufe  von  Sprechstorungen 
zu  beschreiben,  da  subjektive  Wahrnehmungseffekte  ausgeschlossen  sind. 

Die  akustische  Analyse  liefert  eine  physikalische  Beschreibung  des  Sprachschalls  auf 
einer  vermittelnden  Ebene  zwischen  den  Bewegungsablaufen  und  der  wahrgenommenen 
Spraclie.  Bei  der  Analyse  des  Sprachsignals  lessen  sich  zeitliche,  spektrale  und  dutch 
mathematische  Berechnungen  gewonnene  Parameter  erfassen.  Von  Interesse  sind  hier 
primar  die  zeitlichen  Verlaufe  von  Schalldruck,  Intensitat  und  Grundfrequenz  sowie 
spektrale  Energieverteilungen. 

Alls  der  Grundfrequenz  lessen  sich  spezielle  Variationsma^e  fur  die  Stimmstabi- 
litat  extrahieren:  Jitter  und  Shimmer.  Jitter  bezieht  sich  auf  die  Variabilitat  der 
Dauer  aufeinanderfolgender  Grundperioden,  Shimmer  hingegen  auf  die  Variabilitat  der 
Amplitude  aufeinanderfolgender  Grundperioden.-  Der  Bezug  zu  bestimmten  gestorten 
physiologischen  Ablaufen  an  den  Stimmbandern  kann  iiicht  eindeutig  hergestellt  werden. 
Ebenso  gelingt  die  eindeutige  Zuordnung  zu  bestimmten  perzeptiven  Stimmerkmalen 
nur  zu  einem  bestimmten  Grad  {(Zie98b]). 

Die  spektrale  Energieverteilung  la£t  sich  zur  Bestimmung  charakferistischer  Pi-equenz- 
bander  mit  besonders  grofier  Signalintensitat  oder  Resonanz  heranziehen  (Formanten). 
Aus  der  Darstellung  der  beiden  ersten  Formanten  lassen  sich  charakteristische  Abstande 
der  Frequenzbander  fiir  die  Realisierung  unterschiedlicher  Vokalqualitaten  bestimmen 
(siehe  {Alf82]);  somit  sind  Riickschliisse  auf  die  Vokalartikulation  moglich.  Ebenso  lassen 
sich  charakteristische  spektrale  Merkmale  fiir  Frikative  und  Nasale  finden. 

Die  Nasometrie  ist  ein  akustisches  Verfahren  zur  Nasalitatsbestimmung,  bei  dem 
sich  durch  Verwendung  zweier  getrennter  Mikrophone  die  nasalen  und  oralen  Anteile  des 
Sprachsignals  differenziert  beurteilen  lassen.  Dabei  sind  Nasen-  und  Mundraum  durch 
eine  schallisolierende  Platte  getrennt.  Der  Verlauf  des  relativen  Anteils  nasaler  Energie 
{Nasalanz)  ist  ein  Ma6  fiir  die  Nasalitat. 

Obwohl  im  Prinzip  bereits  die  notwendigen  Methqden  und  Verfahren  der  akusti- 
schen  Analyse  verfiigbar  sind  und  eine  breite  klinische  Nutzung  befiirwortet  und  auch 
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2.  Neurogene  Sprechstdrungen  uncf  deren  kJinische  Diagnostik 

angestrebt  wird,  finden  sich  bis  heute  nicht  einmal  die  einfachsten  akustischen  Parameter 
routiiiemafiig  in  klinischen  Befunden  und  Berichten  ([Merk99b]).  Das  in  Kooperation 
der  Universitat  der  Bundeswehr  Miinchen  und  der  Entwicklungsgruppe  klinische  Neu- 
ropsychologie  entwickelte  und  im  Rahmen  dieser  Arbeit  vorgestellte  MODIAS-System 
ist  ein  Versuch,  diese  Situation  zu  verandern.  Mit  MODIAS  wurde  erstmals  ein  klinisch 
nutzbares  Diagnostik-System  fiir  die  Standarduntersuchung  neurogener  Sprechstorungen 
und  die  BefunderstelKmg  anhand  akustischer  Parameter  zur  Verfiigung  gestellt.  Neben 
der  Berechnung  leicht  interpretierbarer  und  diagnostisch  relevanter  akustischer  Para¬ 
meter  bietet  es  den  Vorteil,  den  Untersucher  durch  ein  umfassendes  und  vollstandiges 
Untersuchungsprotokoll  zu  ftihren.  Das  System  ist  speziell  fiir  den  klinischen  Einsatz  mit 
seinen  sehr  spezifischen  Anforderungen  konzipiert.  MODIAS  ist  bereits  bei  verschiedenen 
klinischen  Einrichtungen  erfolgreich  im  Einsatz. 


2.3.2.  Verfahren  In  der  Sprechapraxiediagnostik 

Zur  Beurteilung  der  Sprechfahigkeit  eignen  sich  spontane  Aufierungen  des  Patienten 
und  Nachsprechaufgaben.  Bei  einer  teilweisen  oder  volligen  Unfahigkeit  zur  Sprachpro- 
duktion  (Mutismus)  muR  zunachst  die  Ursache  hierfiir  geklart  werden. 

Ein  Nachsprechtest  sollte  dabei  folgende  Anforderungen  erfiillen: 

•  Alle  Phoneme  des  Deutschen  und  die  wichtigsten  Konsonantverbindungen  im  An- 
und  Auslaut  soUten  abgedeckt  sein. 

•  Testworter  sollten  ein-  bis  zweisilbige,  konkrete,  hochfrequente,  ungebeugte  Nomina 
sein,  um  le.Kilcalisclie  Effekte  sowie  Wortlangeneffekte  gering  zu  halten. 

•  Um  eine  mogliche  Fehlerinkonstanz  und  -inkonsistenz  zu  priifen,  sollte  ein  gewisser 
Anteil  der  Testworter  mehr  als  einmal,  statistisch  gestreut,  prasentiert  werden. 

Eine  eventuell  beobachtete  Sprechanstrengung  sowie  das  Auftreten  von  Suchbewegungen 
inufi  protokolliert  werden.  Fehler  der  segmentalen  und  suprasegmentalen  Ebene  werden 
durch  Transkription  der  Aufierung  erfafit  (vgl.  [Tei95]). 
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2,3.  UiitersuchangsverfHhren 


Folgende  Kriterien  fiihren  differentialdiagnostisch  zum  AusschluU  einer  Sprechapraxie 
(nach  jZie98b]): 

•  Das  Auftreten  konstanter  phonetischer  Storungsmerkmale  (z.B.  Lenisierung,  Hy- 
pernasalitat  etc.). 

•  Das  Bestehen  einer  der  artikulatorischen  Storung  annahernd  vergleichbaren  Dys- 
phonie. 

•  Das  Fehlen  phonematischer  Zeichen  (z.B.  Phonemsubstitutionen). 

•  Das  Fehlen  von  Suchbewegungen. 

Wahrend  die  Analyse  segmentaler  Defizite  nach  auditiven  Kriterien  ein  klinisch  eta- 
bliertes  Verfahren  darstellt,  gibt  es  fiir  die  Quantifizierung  der  Zeitaspekte  gestorter 
Satzproduktion  noch  keine  klinisch  anwendbaren  Verfahren  ([Merk97a]). 

Das  hier  vorgestellte  MODIAS-System  stellt  erstmals  diese  Funktionalitat  zur 
Verfugung.  Es  erlaubt  die  akustische  Analyse  des  Zeitmusters  der  Satzproduktion  bei 
gleichzeitiger  auditiver  Analyse  nach  phonetischen  und  plionematischen  Fehlern.  Es 
eignet  sich  daher  u.a.  zur  Differenzierung  unterschiedlicher  Storungsmuster  und  zur 
Analyse  der  Faktoren,  die  das  Auftreten  von  Unfiussigkeiten  beeinflussen. 
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3.  MODIAS:  Diagnostisches  und 
Technisches  Systemkonzept 


Dieses  Kapitel  stellt  das  Modulare  Diagnostik-System  fur  Sprechstdrungen  MODIAS  vor, 
das  iin  Zeitraum  von  1994  bis  1999  in  einer  Kooperation  des  Instituts  fiir  Nachrichten- 
tediiiik  der  Universitat  der  Bundeswehr  Miinchen  und  der  Entwicklungsgruppe  Klinische 
Neuropsychologie  EKN  des  stadtischen  Krankenhauses  Miinchen-Bogenhausen  entwickelt 
wurde.  Nach  einer  Analyse  des  klinisch/therapeutischen  Bedarfs  werden  hier  zunachst  die 
generellen  Anforderungen  an  ein  praktikables  technisches  Hilfsmittel  bzw.  an  ein  klini- 
sches  Instrument  formuliert,  urn  es 

•  in  deni  sehr  speziellen  klinischen  Umfeld  der  Sprechstdrungsdiagnostik, 

•  unter  Beriicksichtigung  der  Anwender-Zielgriippe  (Logopaden,  Sprachheilpadago- 
gen,  Linguisten,  Mediziner), 

•  unter  dem  Aspekt  der  zeitlichen  Verfiigbarkeit  bzw,  der  tolerablen  zeitlichen  Bin- 
dung  von  Personal  und/oder  Patient 

tatsachlich  einer  spateren  routinemafiigen  Nutzung  durch  klinische  Praktiker  zufiihren 
zu  konnen.  Ausgeliend  von  einer  klinisch-diagnostischen  Bedarfsanalyse  erfolgt  im  An- 
schlufi  eine  konkrete  Spezifizierung  bzw.  die  Definition  von  Zielen,  die  im  Rahmen  der 
Entwicklung  verfolgt  werden  sollen.  Bedingt  durch  die  langjahrige  Erfahrung  und  die  an- 
gesanimelte  Fachexpertise  der  EKN  bzw.  der  Abteilung  fiir  Klinische  Neuropsychologie 
Munchen-Bogenhausen  konnten  diese  Anforderungen  und  die  abgeleiteten  Ziele  an  das 
MODIAS-System  bereits  zu  Beginn  der  Entwicklung  ztigig  und  relativ  detailliert  erar- 
beitet  werden. 
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3.1.  Analyse  des  Bedarfs  und  Definition  der  Ziele 


Der  folgenden  Abschnitt  beschreibt  die  angestrebten  Untersuchungsverfahren,  sowie  die 
Systematik  und  den  Aufbau  der  entsprechenden  Untersuchungsprotokolle. 

Im  letzten  Teil  des  Kapitels  werden  die  technischen  Rahmenbedingungen  definiert  mit 
Konkretisierungen  bezilglich  Zielplattform,  Hardware-/Softwarekonzept  und  gewahlter 
Entwicklungsumgebung. 


3.1.  Analyse  des  Bedarfs  und  Definition  der  Ziele 

3.1.1.  Praxis  der  klinischen  Sprechstorungsdiagnostik 

Die  auditive  Befundung  hat  in  der  klinischen  Diagnostik  aphasischer  und  sprechaprak- 
tischer  Storungen  der  Sprachproduktion  bisher  noch  immer  eine  zentrale  Bedeutung. 
Akustisch-phonetische  Untersuchungsverfahren  tragen  hier  aber  zur  Differenzierung  und 
Objektivienmg  des  klinischen  Bildes  in  einem  ganz  erheblichen  Mafie  bei.  Neuere  Ent- 
wicklungen  der  letzten  Jahre,  vor  allem  die  rasante  Entwicklung  der  Rechnerleistungen 
resultierten  in  einer  breiten  Verfugbarkeit  auch  PC-gestutzter  Systeme  zu  akzeptablem 
Preis. 

Viele  Sprachtherapeuten  schrecken  aber  vor  dem  routinemafeigen  Einsatz  solcher  Verfah- 
ren  im  klinischen  Alltag  zuruck.  Die  meisten  Programme  und  Systeme  liefern  eine  Viel- 
zahl  berechenbarer  Parameter  z.B.  fiir  Stimmqualitatsanalysen,  allerdings  sind  diese  oft 
nur  schwer  uberschaubar  und  sie  verfiigen  teilweise  nur  iiber  relativ  geringe  diagnostische 
Relevanz.  Zu  guter  letzt  decken  viele  Systeme  nicht  alle  Aspekte  des  klinischen  Routi- 
nealltages  ab,  die  bei  einer  auf  akustischen  Messungen  gestiitzten  Standarduntersuchung 
relevant  waren,  wie  z.B.  Stimulusprasentation,  Sprachaufzeichnung  und  -wiedergabe,  Si- 
gnalanalyse,  Artefakterkennung  und  Ergebnisprasentation. 

Das  hier  vorgestellte  System  MODIAS  ist  ein  Versuch,  die  aus  den  Erfahrungen  abge- 
leiteten  Erfordernisse  weitgehend  abzudecken,  verbunden  mit  neuesten  Methoden  und 
Verfahren  der  Digitalen  Signalverarbeitung.  Die  Kombination  medizinischer  Expertise 
mit  ingenieurwissenschaftlicher  Methodik  lalJt  hier  Synergieeffekte  erwarten,  die  unter 
konsequenter  Einbeziehung  therapeutischer  Erfahrungswerte  zu  einer  praktikablen  und 
im  klinischen  Umfeld  anwendbaren  Systemlosung  fiihren  sollte. 
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3,1.2.  Diagnosttsche  und  technische  Zielsetzung 

Das  System  MODIAS  zlelt  auf  die  Erarbeitung  akustisch-phonetischer  Standards  zur 
Verbesserung  der  klinischen  Diagiiostik  neurogener  Sprechstorungen,  also  von  Stdrungen 
der  zentralmotorischen  Programmierungs-  und  Steuerungsprozesse  des  Sprechbewegungs- 
ablaufes.  Die  konkret  gestellten  Anforderungen  und  die  zu  erreichenden  Ziele  wurden  vor 
Beginn  der  Entwicklung  wie  folgt  definiert: 

•  Das  Standard-Uiitersuchungsprotokol!  soli  umfassend  sein,  aber  dennoch  dkono- 
misch  und  einfach  in  der  Durchfuhrung. 

•  Die  wichtigen  Leistungsbereiche  Tempo,  Rhythmus,  Sprechflussigkeit,  Stimme,  Ar- 
tikulation  und  Diadochokinese  sollen  gepriift  werden. 

•  Quantitative  LeistungsmaEe  sollen  durch  akustische  Parameter  abgeleitet  werden, 
aber  weitgehend  ohne  zeitraubende  Segmentierungsarbeit  und  bei  einfacher  Hand- 
habung. 

•  Die  Berechnung  und  Verarbeitung  der  Daten  kann  Offline  erfolgen,  damit  sollte 
eine  Patientensitzung  und  eine  Auswertungssitzung  jeweils  getrennt  durchfiihrbar 
sein. 

•  Die  Befunddarstellung  soil  ubersichtlich  sein  und  dabei  dem  Untersucher  Grafiken, 
MeKwerte  und  Vergleichswerte  zur  Verfiigung  stellen. 

•  Die  Gesamtkosten  fiir  Hard-  und  Software  sollen  so  gering  wie  moglich  gehalten 
werden,  um  eine  breite  klinische  Nutzung  auch  bei  geringem  Budget  zu  ermoglichen. 


3.2.  Untersuchungsverfahren  und  Diagnostiscbes  Konzept 

Die  beschriebenen  Anforderungen  wurden  bei  der  Realisierung  von  MODIAS  in  ein 
Untersuchungsprotokoll  mit  4  unabhangigen  Modulen  umgesetzt. 

Organisatorisch  erfolgt  die  Patientenuntersuchung  ausschlieiSlich  durch  Analyse  des  iiber 
Mikrophon  aufgezeichneten  Sprachsignales,  also  ohne  storende  MeEaufnehmer  im  Mund- 
bzw.  Rachenraum  oder  im  Kehlkopfbereich  des  Patienten  (Abbildung  3.1). 
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3.2.  Untersuchungsvei  fahren  und  DJagnostisches  Konzept 


"111)1 

Abbildung  3.1.:  Die  Patientenuntersuchung  erfolgt  innerhalb  des  MODIAS-Systems  aus- 
schliefilich  an  dem  iiber  Mikrophon  und  Soundkarte  aufgezeichneten 
Sprachsignal,  somit  ohne  beeinflussende  Sensorik  in  Mund-  bzw.  Ra- 
chenraum  oder  im  Kehlkopfbereich. 


Die  Aufzeichnungen  werden  durch  den  Untersucher  durchgefiihrt,  alle  nachgeordneten 
Berechnungen  und  Analysen  erfolgen  OfBine  ohne  zeitliche  Bindung  des  Patienten,  ggf. 
auch  zu  einem  spateren  Zeitpunkt. 

Das  Modul  STIMME  UND  VOKALARTIKULATION  zielt  niit  seinen  diagnosti- 
schen  Fragestellungen  sowohl  auf  die  Diagnostik  von  Stimmstorungen  als  auch  auf  die 
Priifung  des  Artikulationsraumes  und  der  Artikulation  der  Vokale.  Dieses  Modul  ist 
primar  fiir  dysarthrische  Patienten  mit  ihren  spezifischen  Storungsprofilen  konzipiert. 
Fur  den  Bereich  der  Stimmstorungen  werden  Stimmstabilitat  und  -qualitat  analysiert 
mit  resultierenden  Aussagen  iiber  Stimmlage,  Tonhohenschwank ungen,  Rauhigkeits- 
oder  Behauchtheitsphanomene. 

Fur  den  Bereich  der  Vokalartikulation  werden  die  charakteristischen  Resonanzfrequenzen 
des  Artikulationstraktes  und  deren  zeitlicher  Verlauf  gepriift  mit  abgeleiteten  Parame- 
tern  bezuglich  der  Fahigkeit  zur  artikulatorischen  Kontrastierung  und  zur  korrekten 
Konfigurierung  der  Artikulatoren  (Zungenposition,  Kieferoffnung  und  Lippenr undung). 
Das  Untersuchungsprotokoll  sieht  in  diesem  Modul  die  Aufzeichnung  isolierter,  gehalte- 
ner  Vokale  {/t/,  /y/,  /u/  und  /a/)  vor,  mit  jeweils  3  Durchgangen. 

Das  Modul  SATZPRODUKTION  widmet  sich  dem  Stdrungsprofil  einer  gestorten 
Satzproduktion.  Ein  veranderter  RedefluR  gehort  zu  einem  der  haufigsten  Symptoms 
neurogener  Sprechstorungen.  Er  kann  sowohl  erhoht  als  auch  verlangsamt  sein,  letzteres 
wird  in  der  Praxis  jedoch  wesentlich  haufiger  beobachtet  ([Ack92]).  Ein  verlangsamter 
RedefluB  kann  vielerlei  Ursachen  haben,  unter  anderem  eine  zeitliche  Dehnung  der 
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Vokale,  haufige  oder  verlangerte  Pausen,  Wiederholungen,  Korrekturversuche  usw. 

Das  beschriebene  Modul  zielt  auf  die  klinische  Diagnostik  vorwiegend  aphasischer  und 
sprechapraktischer  Storungsprofile  und  bietet  hierfur  eine  Methode  zur  akustischen 
Analyse  des  Zeitmusters  der  Satzproduktion  bei  gleichzeitiger  auditiver  Analyse  nach 
phonetischen  und  phonematischeii  Pehlern.  Es  eignet  sich  daher  zur  Differenzierung 
unterschiedlicher  Storungsmuster  und  zur  Analyse  der  Faktoren,  die  das  Auftreten  von 
Unfliissigkeiten  beeinfiuften. 

Der  Patient  hat  hier  die  Aufgabe,  24  ausgewahlte  Satze  nachzusprechen,  die  sich  nur 
in  einem  Zielwort  unterschiedlicher  Komplexitat  unterscheiden.  Der  Tragersatz  ist  stets 
identisch  ([/te  kann  die  ...  bekommen),  die  eingebetteten  Zielworter  bestehen  zu  je 
einem  Drittel  aus  einfachen  Zweisilblern  der  Konsonant-Vokal-Struktur  (z.B.  Kette), 
aus  Zweisilblern  mit  Konsonant-Clustern  (z.B.  Pflanze)  und  aus  gemischten  Dreisilblern 
(z.B.  TVompeie). 

Fiir  die  Aufgabenstellung  der  Therapiekontrolle,  die  in  der  Regel  mit  mehreren,  zeitlich 
dicht  aufeinanderfolgenden  Untersuchungen  am  gleichen  Patienten  einhergeht,  wurde 
zur  Vermeidung  von  LernefFekten  ein  alternatives  Satzensemble  implementiert,  welches 
zusatzlich  auch  die  Tlagerphrase  variiert  (bei  einer  jedoch  unveranderlichen  zeitlichen 
bzw.  phonetischen  Struktur  und  gleicher  Zielwortmenge). 

Das  Modul  SCHNELLE  SILBENWIEDERHOLUNGEN  zielt  auf  die  Untersuchung 
der  Fahigkeit  zu  schnellen  Silbenwiederholungen  (Artikulatorische  Diadochokinese). 
Die  meisten  Dysarthrieformen  sind  durch  eine  Verlangsamung  gekennzeichnet,  parallel 
zum  Ausmafi  der  Artikulationsstorung.  Wechselndes  Tempo,  Abnahme  des  Tempos, 
dysrhythmische  Lautstarkeschwankungen  sowie  wechselnde  Pausen  charakterisieren  die 
ataktische  Dysarthrie  ([Poe89]). 

Der  Patient  wird  in  diesem  Modul  aufgefordert,  so  schnell  wie  moglich  fortlaufend  die 
Silben  /ba/,/da/,/ga/,/na/  sowie  die  Kombinationen  /bada/  und  /dana/  zu  sprechen. 
Silbengrenze  und  Silbenkerne  werden  beziiglich  zeitlicher  Lage  und  Amplitude  vermessen 
und  daraus  Parameter  abgeleitet,  die  Tempo,  Konstanz  und  Regularitat  beschreiben. 

Das  Modul  FRIKATIVARTIKULATION  widmet  sich  primar  dem  Storungsprofil 
unpraziser  Konsonantartikulation,  welche  in  schweren  Fallen  zu  erheblichen  Verstand- 
lichkeitsproblemen  fiihren  kann.  Die  meisten  dysarthrischen  Syndrome  sind  durch  solche 
artikulatorische  Defekte  charakterisiert.  Gepriift  wird  in  diesem  Modul  sowohl  die  Fahig- 


40 


3.3.  Technisches  Konzept 


keit  zu  einer  kontrastreichen  Artikulation  der  3  stimmlosen  Zischlaute  /s/,  // /  und  /x/ 
gegeniiber  einem  jeweils  vorangehenden  Vokal  {Kontrastierung  Dikativ/Vokal)  als  auch 
zu  einer  ausreichenden  Unterscheidung  dieser  3  Prikative  {Frikativ-Differenzierung). 
Hierzu  wurde  ein  geeignetes  Wortmaterial  zusammengestellt  in  Form  der  beiden 
Einzelwort-TVipel  lassen,  Laschen,  lachen  und  Massen,  Maschen,  machen.  Das  Unter- 
suchungsprotokoll  sieht  die  Aufzeichnung  der  beiden  beschriebenen  Wort-Ensembles  in 
jeweils  6  Durchgangen  vor. 

Die  Priifung  der  Kontrastierung  Prikativ/Vokal  erfolgt  hierbei  dutch  die  t)berwachung 
des  Klassifikationsverhaltens  eines  speziell  entworfenen  Mustererkenners,  der  auf  die 
akustischen  Eigenschaften  dieser  beiden  Lautklassen  anhand  einer  Stichprobe  von 
Normsprechern  trainiert  wurde. 

Die  Priifung  der  Frikativ-Differenzierung  erfolgt  in  ahnlicher  Weise,  hier  jedoch  aus- 
schlieRlich  anhand  der  Klassifikationsergebnisse  eines  zweiten  Mustererkenners.  Er  wurde 
speziell  auf  die  akustischen  Eigenschaften  der  3  betrachteten  Frikativklassen  anhand 
der  gleichen  Stichprobe  trainiert.  Zusatzlich  ist  im  Untersuchungsprotokoll  eine  auditive 
Komponente  beriicksicht,  die  eine  Klassifikation  der  Prikative  auf  Basis  perzeptiver 
Urteile  gestattet. 

Die  beiden  Entscheidungsinstanzen  Mensch  und  Maschine  konnen  in  ihrem  Urteilsver- 
halten  verglichen  werden. 


3.3.  Technisches  Konzept 

3.3.1,  Gewahites  Zielsystem 

Abgeleitet  aus  den  Rahmenbedingungen  moglichst  geringer  Systemkosten  einerseits,  und 
der  vergleichsweise  niedrigen  Geschwindigkeitsanforderungen  (Offline- Verarbeitung)  an- 
dererseits,  wurde  fiir  die  Realisierung  des  MODIAS-Systems  das  folgende  Zielsystem 
gewahlt: 


•  IBM-kompatibler  Standard-PC, 

•  Betriebssystem  MS  WINDOWS  in  der  Version  3.1  oder  holier, 

•  Arbeitsspeicher  mindestens  32  Megabyte, 
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•  Qualitativ  hochwertige,  IBM-kompatible  Soundkarte  (Abtastrate  22050  Hz,  Quan- 
tisierungsaufloung  16  Bit), 

•  Dynamisches  Studiomikrofon  mit  600f2  Eingangsimpedanz. 

Die  Wahl  fiir  einen  Standard-PC  resultiert  vor  allem  aus  der  Tatsache,  da£  diese  Hard- 
wareplattformen  heute  praktisch  iiberall  vorhanden  sind.  Bei  der  Neueinrichtung  eines 
MODIAS'Untersuchungsplatzes  entstehen  somit  in  der  Regel  keine  diesbeziiglichen  Zu- 
satzkosten.  Zu  Beginn  der  MODIAS-Realisierung  wurde  die  zukunftsweisende  Entschei- 
dimg  getroffen,  sich  sowohl  in  der  Entwicklungsphase  als  auch  in  der  spateren  Phase  der 
klinischen  Nutzung  auf  die  kommerziellen  Softwareprodukte 

•  MATLAB  (Fa.  MathWorks  Inc.,  USA)  mit  der  optionalen  Erganzung 

•  SIGNAL  PROCESSING  TOOLBOX. 

abzustiitzen,  urn  die  Entwicklungszeiten  minimieren  und  eine  fruhzeitige  klinische 
Erprobung  einzelner,  bereits  fertiggestellter  Module  zu  ermoglichen. 


Anmerkung:  Die  MODIAS-Software  besteht  im  Prinzip,  wie  der  Grofiteil  von  MAT- 
LAB  selbst,  aus  einer  Sammlung  spezieller  ASCII-Source-Codes  bzw.  m-Files,  die  vom 
MATLAB-Kernel  jeweils  erst  zur  Laufzeit  interpretiert  werden.  Die  m-Files  kbnnen  auf 
jede  beliebige  Hardware  (entsprechende  MATLAB-Installation  vorausgesetzt)  eingespielt 
werden,  damit  ist  die  Programmierung  vollig  hardwareunabhangig. 

Schon  1994  war  erkennbar,  dafi  die  Philosophic  der  Firma  MathWorks  einerseits,  und 
die  weltweite  Verbreitung  und  vorwiegend  wissenschaftliche  Nutzung  des  MATLAB- 
Produkts  andererseits,  auf  eine  spatere  Kompilierbarkeit  vorhandener  m-Files  zur  Erzeu- 
gung  von  Stand-Alone-Applikationen  zielen  wiirde.  Seit  Juli  1999  ist  es  nun  tatsachlich 
moglich,  aus  m-Files  (bzw.  koniplex  verkniipften  m-File-Sammlung  wie  z.B.  MODIAS)  ei- 
genstandig  lauffahige  Programme  fiir  verschiedene  Hardware-Plattformen  zu  generieren. 
Die  Anzahl  der  Kompilationen  ist  hierbei  nicht  beschrankt,  die  Nutzung  unterliegt  kei- 
nen  lizenzrechtlichen  Einschrankungen.  Zum  Zeitpunkt  der  Erstellung  der  vorliegenden 
Arbeit  lagen  hierzu  noch  keine  Erfahrungen  vor,  gem.  Aussage  der  deutschen  Vertriebs- 
firma  ist  die  Erfolgsaussicht  einer  fehlerfreien  MODIAS-Kompilation  jedoch  optimistisch 
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zu  bewerten.  Damit  entfiele  ftir  die  MODIAS-Anwendung  die  beschriebene  Abstiitzung 
auf  MATLAB,  verbunden  init  einer  nicht  unerheblichen  finanziellen  Entlastung  fiir  den 
klinischen  Anwender  bzw.  dessen  Betriebsorganisation, 

3.3.2.  VerwendetG  Entwicklungsumgebung 

Als  Entwicklungsumgebung  diente  wahrend  der  gesamten  Laufzeit  ein  handelsiiblicher 
PC  (INTEL-Pentium-90-Prozessor)  mit  32  MB  Arbeitsspeicher.  Zur  Enfcwicklung  von 
Algorithmen  und  Bedienoberflache  des  MODIAS-Systems  wurde  der  mathematische  In¬ 
terpreter  MATLAB  (Version  4.2c)  der  Firma  MathWorks  mit  der  optionalen  SIGNAL 
PROCESSING  TOOLBOX  gewahlt,  der  sich  in  der  Digitalen  Signalverarbeitung  mitt- 
lerweile  als  weltweiter  Standard  etabliert  hat. 

MATLAB  gestattet  einen  einfachen  Zugriff  auf  samtliche  mitgelieferte  Standardroutinen 
sowie  deren  Einbindung  in  benutzerspezifische  Projekte.  Damit  entfallen  nichtkreative 
Programmierzeiten  fiir  Standardfunktionalitaten  wie  z.B.  grafische  Ausgaben,  akustische 
Wiedergabe  von  Sprachdaten,  Papierausdruck,  Dateiablage  oder  auch  fiir  die  bereits  hin- 
langlich  bekannten  Algorithmen  wie  z.B,  zur  Fast-Fourier-Transformation  oder  auch  zur 
digitalen  Filterung.  MATLAB  bietet  somit  eine  optimale  Umgebung  fiir  die  Entwicklung 
und  die  Tests  neuentwickelter  Signalverarbeitungsalgorithmen,  besonders  aufgrund  des 
Interpreterkonzeptes  und  des  damit  verbundenen  Wegfalls  von  Compilierzeiten. 

Das  Aufzeichnungssystem  bestand  aus  einer  qualitativ  sehr  hochwertigen  Soundkarte, 
Typ  TROPEZ  der  Firma  TURTLE  BEACH,  sowie  einem  dynamischen  Studiomikofon 
mit  einer  Eingangsimpedanz  von  GOOfl,  Typ  DM130  der  Firma  VIVANCO  . 
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Das  diagnostische  und  teclmische  Konzept  zu  dem  Modul  STIMME  UND  VOKALAR¬ 
TIKULATION  wurde  bereits  im  vorhergehenden  Kapitel  aufgezeigt.  Nach  einer  kurzen 
Erlauterung  der  relevanten  diagnostischen  Fragestellungen  widmet  sich  dieses  Kapitel  der 
konkreten  Realisierung  innerhalb  des  MODIAS-Systems.  Der  interdisziplinare  Charakter 
der  Aufgabenstellung  laftt  hierbei  eine  Zweiteilung  sinnvoll  erscheinen  in  die 

•  klinisch/diagnostisch  relevanten  Anteile,  wie  z.B.  Untersuchungsprotokoll,  gewahl- 
tes  Untersuchungsmaterial,  Ablauf  einer  Untersuchungssitzung  und  Auswertung 
bzw.  Darstellung  der  Ergebnisse,  sowie  in 

•  technisch  relevante  Anteile,  wie  z.B.  angewandte  bzw.  entwickelte  technische  Me- 
thoden,  Verfaliren  und  Algorithmen,  die  zu  der  ingenieurwissenschaftlichen  Losung 
der  medizinischen  Problemstellung  gefiihrt  haben. 

Bedingt  durch  die  grundsatzlich  schwierige  tTbertragbarkeit  akustischer  Stimmparame- 
ter  auf  den  perzeptiven  Horeindruck  wurde  hier  auf  die  Validitat  besonderes  Augenmerk 
gelegt.  Dabei  wurde  der  inethodische  Ansatz  des  Experiments  (Isolierte  Vokale)  zunachst 
anhand  einer  Pilotstudie  iiberprvift.  Die  Sensitivitat  der  StimmqualitatsmaKe  wurde  an- 
schliefiend  an  synthetischem  Sprachmaterlal  validiert.  Der  Entwurf  und  die  Realisierung 
des  zur  Erzeugung  des  synthetischen  Sprachmaterials  erforderlichen  Vocoders  sind  er- 
ganzend  dargestellt. 

Im  letzten  Teil  des  Kapitels  werden  die  Ergebnisse  einer  typischen  klinischen  Anwendung 
vorgestellt,  bei  der  die  Stimmparameter  von  Patienten  mit  neurogenen  Sprechstbrungen 
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mit  den  entsprechenden  Parametern  sprechgesimder  Probanden  verglichen  wurden.  Da- 
mit  konnte  ein  klinischer  Nachweis  der  Sensitivitat  des  MODIAS-Moduls  erbracht  war¬ 
den.  Erganzend  warden  die  Ergebnisse  einer  klinischen  Anwendung  im  Rahmen  einer 
Kooperation  mit  dem  Klinikum  Rechts  der  Isar  der  Technischen  Universitat  Miinchen 
vorgestellt,  deren  Ergebnisse  bereits  vielfach  publiziert  worden  sind  (z.B.  in  (Bre98]).  Es 
handelt  sich  hierbei  um  die  bisher  umfassendste  Untersuchung  an  postoperierten  Pati- 
enten  mit  Lippen-Kiefer-Gaumenspalte,  also  einer  Patientengruppe  mit  rein  organisch 
bedingten  Sprechstorungen  ohne  neurologische  Schaden. 


4.1.  Diagnostische  Fragestellungen 

Die  aus  den  realisierten  Vokalen  /i/,  /y/,  /u/  und  /a/  abgeleiteten  Formanten 
(charakteristische  Resonanzfrequenzen  des  menschlichen  Vokaltrakts,  siehe  Seite  16  ff. 
und  33  ff.)  stellen  ein  Mafi  fiir  die  Bewegungsauslenkung  der  Artikulatoren  dar.  Das 
gebrauchlichste  Ma£  fiir  die  Beurteilung  der  Vokalqualitat  ist  die  Lage  der  beiden  ersten 
Formanten  ({Alf82]).  Hierzu  leitet  MODIAS  neben  den  zeitlichen  Verlaufen  auch  die 
mittleren  Werte  fiir  die  Formanten  FI  und  F2  ab. 

Bei  einer  Interpretation  dieser  Daten  geht  man  davon  aus,  da£  der  erste  Formant 
mit  dem  Offnungsgrad  der  Vokale  korreliert  (['IVa88]).  Der  Befund  eines  erhohten  ersten 
Formanten  weist  in  diesem  Sinne  auf  eine  zu  geringe  Anhebung  der  Zunge  bei  der 
Bildung  der  hohen  Vokale  /i/,  /y/  und  /u/,  also  auf  eine  Tendenz  zur  Zentralisierung, 
bin  ({Zie83a],{Zie83b]).  Entsprechend  kann  eine  Absenkung  des  ersten  Formanten  beim 
Vokal  /a/  durch  eine  verengte  artikulatorische  Konfiguration,  etwa  infolge  eines  zu 
geringen  Kieferoffnungswinkels,  interpretiert  werden. 

Die  Lage  des  zweiten  Formanten  wird  einerseits  durch  die  Rundung  und  Protrusion  der 
Lippen,  andererseits  durch  die  horizontale  Zungenposition  beeinflufit,  Durch  Vergleich 
der  zweiten  Formanten  fiir  die  Vokale  /t/  und  /y/  erhalt  man  ein  Ma£  fiir  die  Rundung 
der  Lippen.  Die  F2-Differenz  von  /y/  und  /u/  stellt  ein  Ma£  fiir  die  Kontrastierung 
dieser  beiden  Vokale  durch  Vor-  {/y/)  bzw.  Riickverlagerung  (/u/)  der  Zunge  dar. 

Fast  alle  neurologischen  Erkrankungen,  welche  die  generelle  motorische  Steuerung 
beeintrachtigen,  wirken  sich  auch  auf  die  Kehlkopfsteuerung  aus  mit  der  Folge  von  Sto- 
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rungen  der  Stimmbildung  (Stimmstorungen).  Oblicherweise  ist  die  neurogene  Dysphonie 
nur  Teil  einer  allgemeineren  dysarthrischen  Sprechstorung,  die  auch  die  motorische  Steue- 
rung  der  Atmungs-  und  der  supralaryngealen  Muskulatur  wahrend  des  Sprechvorganges 
betreffen.  Die  wahrnehmbaren  Stimmstorungen  dieser  Patienten  reflektieren  sowohl  die 
direkte  Beeintrachtigung  des  laryngealen  motorischen  Systems  als  auch  die  kompensa- 
torisclie  Reaktionen  auf  respiratorische  oder  artikulatorische  Defekte  ([Zie99|,[Merk99a]). 

Die  klinische  Diagnostik  neurogener  Stimmstorungen  basiert  in  erster  Linie  auf 
perzeptiven  Bewertungen  der  Stimmqualitat  ([Dar75]).  Dieses  Verfahren  ist  jedoch 
naturgemalS  subjektiv  und  in  den  meisten  Fallen  nicht  ausreichend  zuverlassig,  uin 
spontane  oder  therapiebedingte  Fortschritte  zu  verfolgen.  Objektivere  Verfahren  basieren 
hier  auf  Methoden  der  Digitalen  Signalverarbeitung. 

Diese  (akustischen)  Verfahren  zur  Beurteilung  von  Stimmstorungen  sind  in  der  klinischen 
Diagnostik  und  der  Therapieiiberwachung  noch  nicht  etabliert.  Von  der  hohen  Korrela- 
tion  zwischen  den  zahlreichen  akustischen  Parametern  wie,  z.B,  Jitter,  Shimmer,  oder 
Harmonics-to-Noise-Ratio  und  den  perzeptiv  bewerteten  Stimmqualitaten,  wie  Rau- 
higkeit,  Heiserkeit,  Behauchtheit  oder  Geprefitheit,  wurde  in  zahlreichen  Publikationen 
berichtet  (z.B.  [Bak87],  [Chi91],  [Esk90],  [Mil87]). 

4.2.  Aufbau  und  Gestaltung 

4.2.1.  Untersuchungsprotokoll  und  -material 

Der  Patient  hat  in  diesem  Modul  die  Aufgabe,  die  Kardinalvokale  /i/,  /y/,  /u/  und  /a/ 
liber  einen  Zeitraum  von  mindestens  3  Sekunden  in  einer  aus  seiner  Sicht  normalen  Inten- 
eitat  und  Sprechstimmlage  zu  vokalisieren.  Der  Untersuchungsgang  sieht  3  Durchgange 
vor,  also  entstehen  insgesamt  12  Aufzeichnungen  bzw.  3  Aufzeichnungen  pro  Vokal. 

4.2.2.  Untersuchungsablauf  und  Bedienung 

Nach  Aufruf  von  MODIAS  erscheint  die  Startoberflache  gem  Abbildung  4.1  mit  dem 
entsprechenden  Startbutton  fiir  den  Untersuchungsteil  STIMME  UND  VOKALARTI¬ 
KULATION. 
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Abbildung  4.1.:  Startoberflache  des  MODIAS-Systems.  Das  Modul  STIMME  UND  VO- 
KALARTIKULATION  wird  mit  dem  zugehorigen  Button  START!  auf- 
gerufen. 

Nach  Betatigung  des  Buttons  START!  gelangt  man  unmittelbar  zur  Organisationsober- 
flache  des  Module  STIMME  UND  VOKALARTIKULATION  gem.  Abbildung  4.2.  An 
dieser  Stelle  wird  der  Untersucher  aufgefordert,  samtliche  relevanten  Daten  zum  Pati- 
enten  und  zur  aktuellen  Untersuchungssitzung  in  die  vorgesehenen  Felder  einzugeben. 
Diese  Organisationsdaten  bestehen  aus: 

•  PATIENTENKURZEL:  Maximal  7-stellige  Kennung  zur  eindeutigen  Identifizie- 
rung  des  Patienten.  Umlaute  oder  Leerzeichen  werden  automatiscli  ersetzt,  da  syn- 
taktisch  vom  System  nicht  vorgesehen. 

•  GESCHLECHT:  Geschlecht  des  Patienten.  Auswahl  des  entsprechenden  Buttons 
fvir  weiblich  bzw.  mannlich. 

•  ALTER:  Lebensalter  des  Patienten  in  Jahren  zum  Zeitpunkt  der  Aufzeichnung  bzw. 
Untersuchungssitzung. 
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•  DATUM:  Feld  wild  automatisch  mit  dem  aktuellen  Datum  gem.  eingestellter  Sy- 
stemzeit  des  Rechners  vorbefiillt,  kann  aber  editiert  werden. 

•  SESSION  NR:  Laufende  Nummer  der  Sitzung  an  dem  im  Feld  DATUM  eingetra- 
genen  Tag. 


ii)Ui<*  Nm.  I  IliiirttusitliiMisutcimu 
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Abbildung  4.2.:  Organisationsoberflache  des  Moduls  STIMME  UND  VOKALARTIKU¬ 
LATION  zur  Eingabe  samtlicher  Organisationsdaten  bezuglich  des  Pa- 
tienten  und  der  Untersuchungssitzung. 

Der  Button  <  <  fiihrt  unmittelbar  zum  Riicksprung  in  die  Startoberflache  des  MODIAS- 
Systems  gem.  Abbildung  4.1. 

Nach  Betatigung  des  Buttons  WEITER  wird  systemintern  aus  den  eingegebenen  Daten 
der  Felder  PATIENTENKORZEL,  DATUM  und  SESSION  NR  der  Ablagepfad  fur  alle 
im  Laufe  der  Untersuchungssitzung  generierten  Dateien  abgeleitet.  Samtliche  eingegebene 
Organisationsdaten  werden  dabei  permanent  gespeichert,  d.h.,  bei  Aufruf  einer  friiheren 
Sitzung  reicht  zur  korrekten  Identifizierung  die  Eingabe  von  Patientenkiirzel,  Datum  und 
Sitzungsnunirner  aus,  die  restlichen  Informationen  iiber  Alter  und  Geschlecht  des  Pati- 
enten  werden  aus  den  gespeicherten  Daten  rekrutiert  und  in  den  entsprechenden  Feldern 
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eingetragen  (In  diesem  Fall  Feld  SESSION  NR  mit  <Return>  verlassen,  danach  erfolgt 
die  beschriebene  Datenrekonstruktion). 

Der  Untersucher  wird  unmittelbar  zur  Steuerungsoberflache  gem.  Abbildung  4.3  wei- 
tergeleitet,  die  eine  Festlegung  beziiglich  des  welteren  Ablaufs  der  Sitzung  fordert  bzw. 
ermoglicht. 


Abbildung  4.3.:  Steuerungsoberflache  des  Moduls  STIMME  UND  VOKALARTIKULA- 
TION.  An  dieser  Stelle  wird  vom  Untersucher  der  Umfang  des  Unter- 
suchungsprotokolls  festgelegt  bzw.  direkt  zur  Auswertung  (bei  bereits 
vorliegenden  Ergebnissen)  navigiert. 

Im  oberen  Teil  der  Steuerungsoberflache  kann  der  Untersucher  auswahlen,  ob  das 

•  komplette  Standardprotokoll  mit  12  Aufzeichnungen  und  damit  je  4  pro  Vokal  oder 
aber  das 

•  verkiirzte  Untersuchungsprotokoll  mit  4  Aufzeichnungen  und  damit  je  1  pro  Vokal 
genutzt  werden  soil. 
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Im  unteren  Teil  der  Steuerungsoberflache  wild  der  weitere  Ablauf  bzw.  die  Ziel- 
richtung  der  Sitzung  festgelegt; 

•  PATIENTENSITZUNG:  Erstellung  neuer  Aufzeichnungen  mit  anschliefiender  Ana¬ 
lyse  und  Auswertung; 

•  ERGEBNISDARSTELLUNG:  Sichtung  bereits  vorhandener  Ergebnisse  (ohne  Auf- 
zeicluiung) . 


Bei  Auswahl  der  Patieiitensitzung  gelangt  man  nach  Betatigung  des  Buttons  WEITER 
zur  ersteu  der  bis  zu  3  aufeinanderfolgenden  Aufzeichnungsoberflachen  gem.  Abbildung 
4.4  (bei  Auswahl  der  Ergebnisdarstellung  direkt  zur  Auswertungsoberflache  gem.  Abbil¬ 
dung  4.8  auf  Seite  56). 


Abbildung  4.4.:  Eine  der  bis  zu  3  aufeinanderfolgenden  Aufzeichnungsoberflachen  des 
Moduls  STIMME  UND  VOKALARTIKULATION.  Die  Reihenfolge  der 
Vokale  ist  randomisiert.  Die  Aufzeichnung  wird  jeweils  durch  den  Button 
AUFZEICHNBN  gestartet. 

Die  Darstellung  der  Vokale  erfolgt  randomisiert,  die  Aufzeichnung  jedes  Vokals  wird 
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durch  Betatigung  des  entsprechenden  Buttons  AUFNEHMEN  gestartet.  Da  MATLAB 
in  der  verwendeten  Version  noch  keinen  direkten  Zugriff  (bei  der  Aufnahme)  auf  die 
Soundkarte  ermoglicht,  erscheint  das  standardisierte  MS-WINDOWS-Ibol  des  SOUND- 
RECORDERS  gem.  Abbildung  4.5. 


{S  iJub_l _ 1  *  AutfioicctJiilcf 


m±l\  MA  ^ 


Abbildung  4.5.:  Bedienoberflache  des  verwendeten  Tools  zur  Steuerung  der  Aufzeich- 
nung.  Aus  Kompatibilitatsgrunden  wird  in  alien  MODIAS-Modulen  ein- 
heitlich  der  mit  dem  Betriebssystem  MS-WINDOWS  ausgelieferte  Soun- 
drecorder  genutzt. 


Die  Aufzeichnung  wird  uber  die  Start-  und  Stopptaste  gesteuert,  eine  unmittelbare  Wie- 
dergabe  zur  Kontrolle  ist  moglich.  Liegt  berelts  eine  Aufzeichnung  vor,  wird  innerhalb 
der  Aufzeichnungsoberflache  der  Button  AUFNEHMEN  automatisch  durch  den  Button 
ANHOREN  ersetzt  und  damit  eine  entsprechende  Wiedergabemoglichkeit  bereitgestellt. 
Bei  der  Aufzeichnung  wird  jeder  Vokal  vom  Patienten  in  normaler  ^prechstimmlage  bei 
normaler  Intensitat  iiber  einen  Zeitraum  von  mindestens  3  sec  anhaltend  gesprochen. 
Soli  die  Aufzeichnung  gespeichert  werden,  geniigt  das  Schliefien  des  Soundrecorders  und 
die  Speicherung  wie  vorgeschlagen.  Der  Dateiname  ist  durch  MODIAS  bereits  voreinge- 
stellt,  ebenso  die  Systemeinstellungen  beziiglich  Samplingrate  (22050  Hz)  und  Auflosung 
(16Bit). 

Die  im  Untersuchungsprotokoll  vorgesehene  Stilleaufzeichnung  sieht  eine  Aufzeichnung 
ohne  Aufsprache  bzw.  ohne  jegliche  Art  von  (nicht  systemimmanenten)  Storgerauschen 
mit  einer  Dauer  von  ca.  5  sec  vor.  Eine  automatisch  durchgefvihrte  statistische  Ana¬ 
lyse  des  systemspezifischen  Rauschens  des  Aufzeichnungssystems  Soundkarte/Rechner 
ermoglicht  eine  wesentlich  robustere  Festlegung  fiir  die  spatere  Festlegung  gunstiger  Si- 
gnalabschnitte. 

Wie  bereits  dargestellt,  besteht  jede  Aufzeichnung  aus  einem  mindestens  3  sec  moglichst 
konstant  realisierten  Vokal.  Bei  Patienten  mit  neurogenen  Sprechstorungen  kann  diese  ge- 
stellte  Aufgabe  bereits  zu  Problemen  fuhren.  Die  klinische  Praxis  zeigt  z.B.  das  Auftreten 
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von  Unterbrechungen,  Abbriichen,  Rauspern  oder  auch  unerwiinschten  Gerauschartefak- 
ten.  Dem  Untersucher  soli  hier  ein  Instrument  an  die  Hand  gegeben  werden,  mit  dem 
er  die  nach  seiner  EinschStzung  verwertbaren  und  im  Sinne  der  zu  diagnostizierenden 
Stimmstorung  reprasentativen  Anteile  der  Aufzeichnung  in  die  weitere  Analyse  mit  ein- 
beziehen  und  andere  Anteile  verwerfen  kann. 

Hierzu  wurde  in  dem  Modul  STIMME  UND  VOKALARTIKULATION  ein  spezieller  Seg- 
mentierungseditor  implementiert,  der  einen  mit  der  subjektiven  Lautheitsempfindung  des 
menschlichen  Gehors  korrespondierenden  Kurvenverlauf  (Lautheitskontur)  darstellt  und 
damit  eine  geeignete  Oberflache  fiir  die  Extraktion  verwertbarer  Signalsegmente  bereit- 
stellt. 

Die  erforderlichen  Berechnungen  der  Lautheitskonturen  sowie  der  vom  System  aus  aku- 
stischer  Sicht  vorgeschlagenen  Segmentgrenzen  werden  autoinatisch  beim  Ubergang  von 
den  Aufzeichnungsoberflachen  zur  anschlieRenden  Segmentierungsoberflache  gem.  Abbil- 
dung  4.6  fiir  jeden  der  realisierten  Vokale  getrennt  berechnet. 

Die  Segmentierungsoberflache  gestattet  fiir  jede  durchgefiihrte  Aufzeichnung  (erkennbar 
an  einer  gelben  Markierung  am  rechten  Rand  der  jeweiligen  Textfelder)  iiber  den  Button 
SEGMENTIEREN  den  Aufruf  des  Segmentierungseditors  gem.  Abbildung  4.7. 

Im  Segmentierungseditor  wird  die  berechnete  Lautheitskontur  des  jeweiligen  Vokals  gra- 
fisch  darstellt.  Vom  System  wird  dabei  bereits  ein  zusammenhangendes  Signalsegment 
vorgeschlagen  und  entsprechend  markiert,  das 

•  aus  akustischer  Sicht  gunstige  Signaleigenschaften  aufweist  bzw.  mit  geringer  Wahr- 
scheinlichkeit  storende  Artefakte  enthalt  und  ' 

•  eine  zeitliche  Dauer  von  bis  zu  2  sec  besitzt. 

Die  beiden  rechts  oben  eingeblendeten  Informationsfelder  zeigen  den  aktuellen  Stand  der 
Segraentierung  an  und  sind  wie  folgt  zu  interpretieren: 

•  ANGESTREBT:  Idealerweise  zu  erreichende  Dauer  des  segmentierten  Signalseg- 
inents  von  2  Sekunden.  Die  Anzeige  ist  statisch  und  unabhangig  von  der  aktuellen 
Segmentierung. 

•  ERKANNT:  Tatsadiliche  Dauer  des  segmentierten  Signalsegments  in  Sekunden, 
die  sich  aus  dem  Abstand  der  beiden  eingeblendeten  senkrechten  Linien  ergibt.  Die 
Anzeige  ist  dynamisch  und  hangt  von  der  aktuellen  Segmentierung  ab. 
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Segmantlerung  Tell  1 

Abbildung  4.6.:  Segmentierungsoberflache  des  Moduls  STIMME  UND  VOKALARTI- 
KULATION.  Durch  Betatigung  des  Buttons  SEGMENTIEREN  wird 
die  halbautomatische  Segmentierung  eines  giinstigen  Signalabschnittes 
eingeleitet. 

Miissen  die  vorgeschlagenen  Segmentgrenzen  beziiglich  ihrer  zeitlichen  Lage  korrigiert 
werden,  stehen  dem  Untersucher  mehrere  Interaktionsmoglichkeiten  zur  Verfiigung.  Un- 
terstiitzend  wird  hierzu  im  unteren  Teil  des  Bildschirms  das  zeitsynchrone  Oszillogramm 
eingeblendet. 

Das  Menii  MANIPULATION  dient  der  unmittelbaren,  manuellen  Einfiufinahme  auf  die 
bisher  automatisch  erfolgte  Segmentierung.  Es  bietet  die  folgende  Auswahl; 


•  LINKE  bzw.  RECHTE  GRENZE  VERSCHIEBEN;  Erlaubt  die  manuelle  Verschie- 
bung  der  Segmentgrenzen.  Der  Segmentkern  wird  hierfiir  mit  der  Hnken  Mousetaste 
selektiert,  danach  wird  der  neue  Ort  der  linken  bzw.  rechten  Segmentgrenze  mit 
gleicher  Mousetaste  vorgegeben. 
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Abbildung  4.7.;  Bedienoberflache  des  Segmentierungseditors  des  Moduls  STIMME  UND 
VOKALARTIKULATION.  Hier  erfolgt  die  manuelle  Einfluftnahme  des 
Untersuchers  auf  die  vom  System  vorgeschlagene  Segmentierung  eines 
giinstigen  Signalabschnitts. 

•  SEGMENT  VERSCHIEBEN:  Erlaubt  die  manuelle  Verschiebung  des  gesamten 
Segments.  Der  Segmentkern  wird  hierfiir  mit  der  linken  Mousetaste  selektiert,  da- 
nach  wird  der  neue  Ort  des  Segmentkerns  mit  gleicher  Mousetaste  vorgegeben. 

Das  Menii  WIEDERGABE  gestattet  dem  Untersucher  die  perzeptive  Kontrolle  der 
bisherigen  Segmentierung.  Die  Auswahl  erlaubt  die  Wiedergabe  der  gesamten  Aufzeich- 
nung  Oder  die  Wiedergabe  des  markierten  Segments. 

Das  Menu  SONDERFUNKTIONEN  bietet  dem  Untersucher  die  Moglichkeit,  eine 
epezifische  Mindestlautheit  fur  die  Detektion  eines  Segments  direkt  in  der  Grafik  uber 
die  linke  Mousetaste  vorzugeben  (THRESHOLD  FESTLEGEN). 

Das  Menii  HILFSMITTEL  ermoglicht  eine  benutzerdefinierte  Zoomfunktion  be- 
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1 

ziiglich  der  Zeitachse  bei  fester  Skalierung  der  Lautheitsachse.  Die  Festlegung  des 
darzustellenden  Bereiches  erfolgt  durch  Aufziehen  eines  Zoomfensters  bei  gedruckter  lin¬ 
ker  Mousetaste.  Die  drei  weiteren  Auswahlmoglichkeiten  dieses  Menus  steuern  das  Ein- 
bzw.  Ausblenden  des  Oszillogrammes  sowie  die  Anpassung  der  Oszillogramin-Darstellung 
auf  bereits  erfoigte  Manipulationen  (linke  bzw.  rechte  Silbengrenze  verschoben)  oder 
geanderte  Skalierungen  (Zeitachse  gezoomt). 

Das  letzte  Menii  ?  bietet  eine  Hilfefunktion  mit  einer  ausfiihrlichen  Beschreibung 
zur  Bedienung  des  Segmentierungseditors. 

Nach  Verlassen  des  Segmentierungseditors  mit  dem  Button  OK  werden  die  jetzt  uber- 
flussigen  Signalabschnitte  vor  der  Unken  und  nach  der  rechten  Segmentgrenze  entfernt. 
Die  Aufzeichnung  wird  damit  zum  Teil  erheblich  gekiirzt,  was  sich  in  einer  deutlichen 
Ersparnis  im  Speicherbedarf  auswirkt. 

Sind  alle  Aufzeichnungen  innerhalb  der  Segmentierungsoberflache  bearbeitet,  erfolgt  der 
tibergang  zur  Auswertung. 

4.2.3.  Auswertung,  Ergebnisdarstellung  und  Datenexport 

Die  Auswertungsoberflache  gem.  Abbildung  4,8  gestattet  die  getrennte  Auswertung  der 
Aufzeichnungen  nach  diagnostischen  Schwerpunkten: 

•  ARTIKULATIONSANALYSE:  Priifung  der  artikulationsspezifischen  Signalpara- 

meter.  • 

•  STIMMANALYSE:  Berechnung  der  fiir  Stimmqualitat  und  Stimmstabilitat  spezi- 
fischen  Signalparameter. 


4.2.3. 1.  Auswertung  der  Vokalartikulatlon 

Die  ersten  4  Auswerteblatter  gem.  Abbildung  4.9  zeigen  jeweils  auf  der  linken  Seite  die 
zeitlichen  Verlaufe  der  Formantfrequenzen  FI  und  F2  sowie  deren  Mediane.  Jedem  der  4 
Vokale  ist  ein  eigenes  Auswertungsblatt  zugeordnet,  es  enthalt  dabei  samtliche  Realisle- 
rungen  der  Sitzung. 
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Abbildung  4.8.:  Auswertungsoberfiache  des  Moduls  STIMME  UND  VOKALARTIKU¬ 
LATION.  Von  hier  aus  werden  die  unabhangigen  akustischen  Analysen 
beziiglich  der  Vokalartikulation  oder  der  Stimme  initiiert. 

Bei  konstanter  Stellung  der  Artikulatoren  sind  die  korrespondierenden  Formantverlaufe 
ebenfalls  naherungsweise  konstant. 

Auf  der  rechten  Seite  ist  das  jeweils  entsprechende  mittlere  LPC-Spektrum  dargestellt. 
Diese  Prequenzbereichs-Reprasentation  des  Sprachsignals  entsteht  durch  Mittelung  iiber 
sRmtliche,  im  Abstand  von  10  ms  neuberechneten  (Einzel-)LPC-Spektren;  die  gestri- 
chelten  Linien  markieren  die  Minimal-  bzw.  Maximalwerte  innerhalb  dieser  Menge.  Die 
LPC-Spektren  zeigen  im  Normalfall  zwei  markante  tJberhohungen  bei  den  beiden  For- 
mantfrequenzen  FI  und  F2. 

Im  Prinzip  entsteht  jedes  Formantpaar  der  links  dargestellten  Formantverlaufe  aus  den 
beiden  detektierten  Peaks  des  jeweils  korrespondierenden  LPC-Spektrums;  der  gesamte 
Verlauf  ergibt  sich  aus  der  segmentweisen  Verfolgung  dieser  Peaks  vom  Anfang  bis  zum 
Ende  der  Aufzeichnung.  ^ 

Jedes  Formant-Tiacking-Verfahren,  auch  das  in  MODIAS  implementierte,  kann  in  Ein- 
zelfalleii  fehlerbehaftet  sein  oder  vollig  divergieren.  Die  Tracking-Startwerte  (Wertepaar 
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Abbildung  4.9.:  Auswertung  der  Artikulationsanalyse  zum  Modul  STIMME  UND  VO- 
KALARTIKULATION,  Blatt  1-4.  Jeder  der  Vokale  wird  auf  einem  eige- 
nen  Auswertungsblatt  reprasentiert  (hier:  /t/)  mit  alien  Realisierungen 
der  Sitzung. 

F1/F2  des  ersten  Signalsegments)  sind  hier  besonders  kritisch  bezuglich  der  korrekten 
Punktionalitat.  Durch  die  LPC-Spektren  wird  dem  Untersucher  eine  alternative  Darstel- 
lung  angeboten,  um 

•  den  (abgeleiteten)  Formantverlauf  bei  vermuteten  Storungen  bewerten  und 

•  gegebenenfalls  den  Formant-Tracking- Algorithmus  steuernd  beeinflufien  zu  konnen. 

Das  Menu  TRACKINGKORREKTUR  regelt  die  Interaktion  des  Untersuchers  bei  be- 
obachteten  Divergenzen  des  Formant-Tracking-Algorithmus.  Solche  Divergenzen  liegen 
immer  dann  vor,  wenn  mindestens  einer  der  beiden  Form  ant  verlaufe 

•  unvermittelt  nach  oben  oder  unten  ausbricht  oder 
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4.  ReaUsienmg  des  Moduls  STIMME  UND  VOKALARTIKULATION 
•  Bich  insgesaint  auf  einem  nicht  plausiblen  Niveau  bewegt 

und  der  perzeptive  Hoieindruck  eine  gegensatzliche  Erwartungshaltung  induziert. 

Die  Mediane  der  beiden  links  dargestellten  Formantverlaufe  werden  grundsatzlich  in  dem 
rechts  dargestellten,  inittleren  LPC-Spektruiii  markiert.  Wurde,  eventuell  bedingt  durch 
einen  fehlerhaften  Tracking-Startwert,  ein  falscher  Peak  des  korrespondierenden  LPC- 
Spektrunis  detektiert  und  dessen  zeitlicher  Verlauf  anstelle  des  richtigen  Peaks  durch 
alle  LPC-Spektren  liindurch  fehlerliaft  verfolgt,  kann  hier  bei  der  Auswahl  MANUELLE 
VORGABE  ein  neues  Wertepaar  als  Tracking-Startwert  direkt  im  LPC-Spektruni  vorge- 
geben  werden. 

Hierzu  werden  die  beiden  Startwerte  {also  die  offensichtlich  richtigen  Peaks  des  LPC- 
Spektrums)  jeweils  mit  der  linken  Mousetaste  markiert.  Nach  kurzer  Neuberechnung 
werden  die  beiden  resultierenden  Formantverlaufe  auf  der  linken  Seite  des  Auswertungs- 
blattes  eingeblendet,  die  damit  ebenfalls  neuberechneten  Mediane  werden  auf  der  rechten 
Seite  im  zugehorigen  LPC-Spektrum  aktualisiert. 

Die  Auswahl  AUTOMATISCHES  TRACKING  gestattet  die  Riickkehr  zu  den  urspriingli- 
chen  Verlaufen  und  Werten,  d.h.  zum  vollautomatischen  Tracking  ohne  nutzerspezifische 
Startwerte. 

Das  Menii  DRUCKEN  stellt  diverse  Varianten  der  Druckausgabe  zur  Verfiigung  wie  Farb- 
druck,  Schwarz-WeiR-Druck  oder  Kopie  in  die  Zwischenablage  fiir  die  weitere  Verwendung 
in  klinischen  Berichten  usw. 

Das  Menii  WIEDERGABE  erlaubt  die  akustische  Wiedergabe  der  jeweils  zugehorigen 
Sprachsignale  bei  gleichzeitiger  Betrachtung  der  ermittelten  Parameterverlaufe.  Diese 
Art  der  Verkniipfung  von  akustischer  Information  und  perzeptivem  Horeindruck  soil  den 
Untersucher  in  seiner  Analyse  moglichst  optimal  unterstiitzen. 

Das  Beispiel  gem.  Abbildung  4.9  zeigt  die  3  Realisierungen  des  Vokals  /*/  eines  sprech- 
gesunden  Probanden.  Sowohl  die  Formantverlaufe  als  auch  die  korrespondierenden  LPC- 
Verlaufe  zeigen  eine  geringe  Formant- Variabilitat  und  weisen  damit  auf  eine  sehr  konstan- 
te  Stellung  der  Artikulatoren  hin,  Der  Vergleich  der  beiden  Formantverlaufe  (Mediane) 
einerseits,  und  der  entsprechenden  LPC-Spektren  (Peaks)  andererseits  lafit  auf  Konver- 
genz  und  damit  auf  eine  optimale  Genauigkeit  des  Formant-Trackings  schliefien. 

Das  anschlielJende  Auswertungsblatt  gem.  Abbildung  4.10  falJt  die  Ergebnisse  der  Ar- 
tikulationsanalyse  zusammen  und  stellt  diese  dem  Untersucher  in  ubersidrtlicher  Form 
dar. 
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Abbildung  4.10.:  Auswertung  der  Artikulationsanalyse  zum  Modul  STIMME  UNO  VO- 
KALARTIKULATION,  Blatt  5.  Die  Zusammenfassung  samtlicher  Er- 
gebnisse  der  Artikulationsanalyse  bietet  dem  Untersucher  eiiien  Ge- 
samtuberblick  iiber  die  mittleren  Formantlagen  F1/F2  aller  4  Vokale 
(links),  sowie  iiber  die  Offnung  des  Artikulationsraumes  anhand  einer 
Formantkarte  (rechts). 

Auf  der  linken  Bildhalfte  sind  die  mittleren  Formanten  FI  und  F2  der  4  Vokale  (hier 
gemittelt  iiber  alle  Realisierungen  des  betreffenden  Vokals)  entlang  der  Prequenzachse 
dargestellt.  Auf  der  rechten  Seite  werden  die  mittleren  Formanten  in  eine  2-dimensionale 
Fl/F2-Ebene  bzw.  Formantkarte  eingetragen,  Die  Vokale  /i/,  /u/  und  /a/  bilden  das 
sogenannte  Formantdreieck,  dessen  Flache  ein  sensitives  Maft  fiir  den  Artikulationsraum 
bzw.  dessen  Offnung  darstellt  und  daher  in  der  grafischen  Ausgabe  beriicksichtigt  wurde 
(Dimension  kHz^). 

Zusatzlich  werden  alle  (bis  zu  12)  zeitlichen  Formantverlaufe  in  diese  Ebene  projiziert. 
Diese  gewahlte  Art  der  Darstellung  erlaubt  auf  einen  Blick  die  Beurteilung  der  zeitlichen 
Stabilitat  der  artikulatorischen  Konfiguration  und  liefert  unmittelbar  eine  Aussage  iiber 
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die  Isei  Patienten  mit  neurogenen  Sprechstorungen  haufig  beobachteten 

•  zeitlichen  Formantveischiebungen  in  Richtung  anderer  Vokale,  besonders  aber  uber 

•  Zentralisierungstendenzen  bei  Erschlaffung  der  am  Sprechvorgang  beteiligten  Mus- 
kulatur  (Vokale  klingen  mit  zunehmender  Realisierungsdauer  gleich). 

4. 2. 3. 2.  Auswertung  der  Stimmqualitat  und  StimmstabllitSt 

Die  Stimmanalyse  basiert  auf  dem  gleichen  Vorrat  an  Vokalaufzeichnungen  wie  die  bereits 
beschriebene  Artikulationsanalyse,  jedoch  werden  hier  nur  die  beiden  Vokale  /i/  und  /a/ 
herangezogen.  Sie  reprSsentieren  die  beiden  Extremstellungen  des  Kehlkopfs,  der  durch 
die  vorgelagerte  und  angehoben  Zunge  beim  /i/  gekippt  und  angehoben  wird,  beim  /a/ 
dagegen  abgesenkt  und  entspannt  ist,  Die  beiden  Vokale  sind  daher  vom  diagnostischen 
Standpunkt  aus  relevant. 

Die  ersten  beiden  Auswerteblatter  gem.  Abbildung  4.11  widmen  sich  dem  Verlauf  der 
Stiminbandgrundfrequenz  (Pitch)  durch  Analyse  jeder  Einzelschwingung  der  zugehorigen 
Sprachsignale.  Den  beiden  Vokalen  ist  jeweils  ein  eigenes  Auswertungsblatt  zugeordnet 
mit  alien  Realisierungen  dieser  Sitzung.  Auf  der  linken  Seite  sind  stets  die  zeitlichen  Pit- 
chverlft.ufe  sowie  deren  Mediane  dargestellt. 

Bei  konstantem  Stimmbandtonus  und  konstanter  Stimmlippenadduktion  sind  die  korre- 
spondierenden  Pitchverlaufe  ebenfalls  naherungsweise  konstant. 

Auf  der  rechten  Seite  ist  ein  Ausschnitt  aus  dem  jeweils  entsprechenden  Oszillogramm, 
also  dem  zeitlichen  Schalldruckverlauf  des  Sprachsignals,  dargestellt.  Im  Prinzip  ent- 
steht  jeder  einzelne  Wert  des  links  dargestellten  Pitchverlaufs  aus  dem  Abstand  zweier 
benachbarter  Schwingungsmaxima  (Periodendauer)  des  Oszillograinms,  der  gesamte  Ver¬ 
lauf  aus  der  periodenweisen  Verfolgung  dieser  Maxima  vom  Anfang  bis  zum  Ende  der 
Aufzeichnung.  Jedes  Pitch-TVacking-Verfahren,  auch  das  in  MODIAS  implementierte, 
kann  in  Einzelfallen  fehlerbehaftet  sein  oder  vollig  divergieren.  Der  Startwert  (erste  ge- 
messene  Periodendauer)  ist  besonders  kritisch  beziiglich  der  korrekten  Punktionalitat  des 
IVacking-Algorithmus. 

Durch  Darstellung  der  Oszillogramme  wird  dem  Untersucher  eine  alternative  Darstellung 
angeboten,  um 

•  den  Pitchverlauf  bei  vermuteten  Storungen  bewerten  und 
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Abbildung  4.1L:  Auswertung  der  Stimmanalyse  des  Moduls  STIMME  UND  VOKALAR- 
TIKULATION,  Pitchverlaufe,  Slatt  1-2  (hier:  Vokal  /i/). 

•  gegebenenfalls  den  Pitch-Tracking-Algorithmus  steuernd  beeinflussen  zu  konnen. 

Das  Menu  TRACKINGKORREKTUR  regelt  die  Interaktion  des  Untersuchers  bei  beob- 
achteten  Divergenzen  des  Pitch-Tracking-Algorithinus,  Solche  Divergenzen  liegen  immer 
dann  vor,  wenn  der  Pitchverlauf 

•  unvermittelt  nach  oben  oder  unten  ausbricht  oder 

•  sich  insgesamt  auf  einem  nicht  plausiblen  Niveau  bewegt 

und  der  perzeptive  Horeindruck  eine  gegensatzliche  Erwartungshaltung  induziert. 

Die  detektierten  Schwingungsmaxima  werden  grundsatzlich  in  dem  rechts  dargestellten 
Oszillogramm  markiert  (Pitch-Marken).  Wurde,  eventuell  bediiigt  durch  einen  fehler- 
haften  Tracking-Startwert,  zum  Beispiel  nur  jedes  zweite  Maximum  detektiert,  kann  hier 
durch  die  Auswahl  MANUELLE  VORGABE  ein  neues  Wertepaar  als  TVacking-Startwert 
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direkt  im  Oszillogramm  vorgegeben  werden. 

Hieizu  werden  die  beiden  Startwerte  (also  zwei  aufeinanderfolgende  Pitch-Marken  im 
Abstaiid  einer  Periodendauer)  jeweils  mit  der  linken  Mousetaste  markiert.  Nach  kurzer 
Neuberechnung  wird  der  resultierende  Pitchverlauf  auf  der  linken  Seite  des  Auswertungs- 
blattes  eingeblendet,  alle  neubereclmeten  Pitch-Marken  werden  auf  der  rechten  Seite  im 
zugehorigen  Oszillogramm  aktualisiert. 

Die  Auswahl  AUTOMATISCHES  TRACKING  gestattet  die  Riickkehr  zu  den  urspriingli- 
chen  Verlaufen  und  Werten,  d.h,  zum  voHautomatischen  Tracking  ohne  nutzerspezifische 
Startwerte. 

Die  Mentis  DRUCKEN  und  WIEDBRGABE  sind  identisch  zu  denen  des  vorhergehenden 
Abschnittes  (Auswertung  der  Vokalartikulation). 

Die  zwei  folgenden  Auswertungsblatter  gem.  Abbildung  4.12  widmen  sich  dem  Verlauf 
des  komplexen  Parameters  CPPS  (Cepstral  Peak  Prominence  Smoothed),  der  besonders 
mit  der  perzeptiven  Stimmqualitat  Behauchtheit,  aber  auch  mit  der  Stimmqualitat  Rau- 
higkeit  korreliert.  Beide  Stimmerkmale  konneii  in  ihrem  zeitlichen  Verlauf  tiber  die  Dauer 
der  Vokalartikulation  hinweg  allein  auf  der  Basis  akustischer  Analysen  bewertet  werden. 
Den  beiden  Vokalen  ist  jeweils  ein  eigenes  Auswertungsblatt  zugeordnet  mit  alien  Reali- 
sierungen  dieser  Sitzung. 

Links  sind  die  zeitlichen  Verlaufe  der  CPPS  einschlieftlich  ihrer  Medians  dargestelit. 

Auf  der  rechten  Seite  ist  das  jeweils  entsprechende  hochauflosende  und  gemittelte 
Schmalband-Leistungsdichtespektrurn  dargestelit. 

Im  Prinzip  entsteht  jeder  der  im  Abstand  von  10  ms  neubereclmeten  CPPS-Werte  des 
CPPS-Verlaufs  aus  einem  entsprechenden  (Einzel-)Leistungsdichtespektrum,  Die  Spek- 
tren  zeigen  bei  holier  Stimmqualitat  eine  erkennbar  periodische  Feinstruktur  (Spektral- 
linien),  deren  Abstand  und  Verteilung  unmittelbar  vom  Pitch  abhangt. 

Eine  wahrnehmbare  Rauhigkeit  korrespondiert  physiologisch  mit  einem  Phasenjitter  der 
Stimmbandanregung,  eine  Behauchtheit  mit  einer  dieser  Stimmbandschwingung  unter- 
liegenden  Rauschkomponente.  Beide  Effekte  fiihren  zu  einer  Storung  der  periodischen 
Feinstruktur  des  Leistungsdichtespektrums  und  damit  zu  einer  Absenkung  des  CPPS- 
Parameters. 

Das  Beispiel  gem.  Abbildung  4.12  zeigt  die  resultierenden  Ergebnisse  fiir  eine  synthetische 
Vocoder-Stimme 

•  ohne  Stimmbandjitter  (obere  Grafikep); 


62 


4.2.  Aufbau  und  GestaJtung 


Abbildung  4.12.:  Auswertung  der  Stimmanalyse  des  Moduls  STIMME  UND  VOKALAR- 
TIKULATION,  CPPS-Verlaufe,  Blatt  1-2. 

•  mit  zeitkontinuierlichem  Random-Jitter  von  1.0  Prozent  (d.h.  relative  Anderung 
des  Pitchs  von  einer  Schwingung  zur  nachsten  betragt  maximal  1  Prozent).  Die 
Rauhigkeit  ist  perzeptiv  kaum  wahrnehmbar,  der  CPPS-Parameter  reagiert  jedoch 
hochsensitiv  und  ist  um  ca.  5  dB  vermindert  (mittlere  Grafiken); 

•  mit  zeitvariablem  Random-Jitter,  Zunachst  ohne,  dann  aber  mit  abrupt  intermittie- 
rendem  Random-Jitter  von  5.0  Prozent  in  zwei  Phasen.  Die  Rauhigkeit  ist  perzeptiv 
deutlich  wahrnehmbar,  der  CPPS-Parameter  bildet  die  tjbergange  zu  den  Phasen 
mit  simulierten  Stimmstdrungen  durch  Verlaufseinbriiche  um  bis  zu  10  dB  ab. 

Das  jetzt  folgende  Auswertungsblatt  gem.  Abbildung  4.13  betrachtet  zusammenfassend 
den  Teilaspekt  der  Stimmqualitat.  Es  stellt  dem  Untersucher  die  zur  Bewertung 
relevanten  Informationen  in  iibersichtlicher  Form  dar. 

Das  obere  Drittel  des  Auswertungsblattes  zeigt  im  linken  Teil  die  mittlere  Tonhohe 
(Pitch)  der  jeweils  3  Realisierungen  pro  Vokal,  im  rechten  Teil  die  Gesamtmittelwerte 
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4.  Realisiening  des  Moduls  STIMME  UND  VOKALARTIKULATION 


Abbildung  4.13.:  Auswertung  der  Stimmanalyse  des  Moduls  STIMME  UND  VOKALAR¬ 
TIKULATION  mit  den  zusammenfassenden  Ergebnissen  zu  den  Aspek- 
ten  Tonhohe  und  Stimmqualit&t. 

fur  die  beiden  betrachteten  Vokale  /i/  und  /a/  sowie  deren  Gesamtmittelwert  (Grand 
Average).  Das  mittlere  Drittel  des  Auswertungsblattes  stellt  analog  im  linken  Teil  die 
mittleren  relativen  JittermaRe  (MODIAS-spezifische  Jitterdefinition,  nicht  identisch 
zu  der  Definition  bei  der  synthetischen  Signalerzeugung  des  beschriebenen  Vocoders) 
ailer  realisierten  Vokale  dar  und  im  rechten  Teil  wieder  die  Gesamtmittelwerte  und  den 
Grand  Average. 

Im  unteren  Drittel  des  Auswertungsblattes  sind  links  die  mittleren  CPPS-Werte  und 
rechts  die  entsprechenden  Gesamtmittelwerte  dargestellt. 

Das  letzte  Auswertungsblatt  gem,  Abbildung  4.14  betrachtet  zusammenfassend  den 
Teilaspekt  der  Stimmstabilitat.  Wahrend  bei  der  Interpretation  der  Stimmqualitat  die 
mittleren  (Absolut-)Lagen  von  Tonhohe,  Jitter  und  CPPS  relevant  waren,  interessieren 
hier  nun  die  fiber  den  Zeitraum  der  Vokalisation  aufgetretenen  relativen  Schwankungen 
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von  Tonhohe,  Lautheit  und  CPPS.  Zur  Ableitung  des  Schwankungsparameters  fur  die 
Lautheit  werden  die  bei  der  Segmentierung  verwendeten  Lautheitsverlaufe  herangezogen. 


Abbildung  4.14.:  Auswertung  der  Stimmanalyse  des  Moduls  STIMME  UND  VOKA- 
LARTIKULATION  mit  den  zusammenfassenden  Ergebnissen  zu  dem 
Aspekt  Stimnistabilitat. 

Die  Darstellungslogik  wurde  analog  zu  dem  beschriebenen  Auswertungsblatt  gewahlt, 
das  vorhergeht. 

\ 

4. 2. 3. 3.  Automatischer  Datenexport 

Mit  Aufruf  der  Auswertung  und  damit  synchron  zur'  Darstellung  des  ersten  Auswertungs- 
blattes  gem.  Abbildung  4.9  bzw.  4.11  wird  automatisch  je  1  Datenfile  mit  alien  relevanten 
Ergebnissen  im  entsprechenden  Arbeitsverzelchnis  angelegt: 

•  Artikulationsdatenfile:  Datenfile  mit  der  Endung  ...or^.asc;  es  enthalt  die  mittleren 
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4.  ReaJJsleriing  des  Moduls  STIMME  UND  VOKALARTIKULATION 


Forinanten  FI  bzw.  F2  fiir  jeden  Vokal. 

•  Stimmdateiifile;  Datenfile  init  der  Enduiig  ...sti.asc;  es  enthalt  die  Ergebnisse  sta- 
tlstischer  Analyseii  der  Zeitverlaufe  von  Pitch  und  Lautheit  fiir  jeden  Vokal. 

Beide  Datenfiles  sind  ASCII-codiert  und  damit  universell  zur  weiteren  Nutzung  oder 
Wei  terverarbei  bung  mit  alternativen  Softwareprodukten  einsetzbar. 

Format  des  Artikulationsdatenfiles:  Das  Artikulationsdatenfile  enthalt  ein  Zahlenfeld 
in  Matrixdarstellung,  wobei  jedem  Vokal  eine  Matrixspalte  zugeordnet  ist.  Die  Belegung 
der  Spalten  erfolgt  gem.  Tabelle  4.1. 

Jede  Zeile  enthalt  folgende  Informationen: 

•  Zeile  1:  Mittlerer  Formant  FI, 

•  Zeile  2:  Mittlerer  Formant  F2. 


Matrixspalte 

Vokal 

Realisieruhg 

1 

mm 

1 

2 

IW 

1 

3 

/«/ 

1 

4 

A/ 

1 

6 

ism 

2 

6 

/y/ 

2 

2 

8 

A/ 

2 

9 

wM 

3 

10 

/y/ 

3 

igmill 

3 

12 

A/ 

3 

Tabelle  4.1.:  Identifizierung  des  Vokals  anhand  der  Spaltennummer  im  Artikulationsda¬ 
tenfile. 

Das  Artikulationsdatenfile  bzw.  die  enthaltene  Datenmatrix  verfiigt  also  fiber  eine  feste 
Anzahl  von  2  Zeilen  und  12  Spalten. 
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Nicht  realisierte  Vokale  warden  dutch  die  Werte  -1  in  den  zugeordneten  Spalten  der 
Matrix  gekennzeichnet. 


Format  des  Stimmdatenfiles;  Das  Stimmdatenfile  enthalt  ebenfalls  ein  Zahlenfeld  in 
Matrixdarstellung,  wobei  jeder  Matrixzeile  einem  Vokal  fest  zugeordnet  ist  gem.  Tabelle 
4.2. 


Vokal 

Realisierung 

1 

w 

1 

2 

2 

3 

3 

EM 

1 

5 

EM 

2 

EM 

3 

Tabelle  4.2.:  Identifizierung  des  Vokals  anhand  der  Zeilennummer  im  Stimmdatenfile. 

Jede  Zeile  dieser  Matrix  enthalt  in  9  Peldern  (Spalten)  die  folgenden  Informationen  (er- 
lautert  in  4. 3. 2.1  auf  Seite  93,  4. 3. 2, 2  auf  Seite  96  und  4. 3. 2. 3  auf  Seite  104): 

•  Feld  01:  Jitter  in  Prozent, 

•  Feld  02:  Pitch- Variabilitat  in  Prozent  iiber  D'end, 

•  Feld  03:  Pitch-Trend  in  Prozent  pro  Sekunde  (positives  Vorzeichen  bei  ansteigendem 
Pitch), 

•  Feld  04:  Mittlerer  Pitch  in  Hz, 

•  Feld  05:  Lautheits- Variabilitat  in  Prozent  uber  Trend  (positives  Vorzeichen  bei  Zu- 
nahme  der  Lautheit), 

•  Feld  06;  Lautheits-Trend  in  Prozent  pro  Sekxinde, 

•  Feld  07:  CPPS- Variabilitat  in  Prozent  iiber  Trend  (positives  Vorzeichen  bei  Zunah- 
me  der  CPPS), 
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•  Feld  08:  CPPS-Trend  in  Prozent  pro  Sekunde, 

•  Feld  09:  Mittlere  CPPS  in  dB. 

Die  akustischen  Parameter  erlauben  eine  detaillierte  Bewertung  von  3  verschiedenen  In- 
Btabilitatsarten  eines  Zeitverlaufs.  Siehe  hierzu  auch  Abbildung  4.29  auf  Seite  92.  Das 
Stiinmdatenfile  bzw.  die  darin  enthaltene  Datenmatrix  verfiigt  tiber  eine  feste  Anzahl 
von  9  Zeilen  und  12  Spalten. 


68 


4.3.  Technische  Realisierung:  Entwickelte  Verfahren  uiid  Algorithmen 

4.3.  Technische  Realisierung:  Entwickelte  Verfahren  und 
Algorithmen 

4.3.1.  Verfahren  zur  Prufung  des  Artikulationsraumes 

4. 3. 1.1.  VokaltraktmodeHierung  und  Formantanalyse 

Zur  Prufung  des  Resonanzraumes  und  der  Stellung  der  Artikulatoren  ist  eine  geeignete 
Modellierung  des  Vokaltraktes  mit  seinen  Sprechwerkzeugen  erforderlich.  Ein  solches  Er- 
satzmodell  kann  auf  Grund  der  Zeitvarianz  des  Sprachsignales  natlirlich  nur  innerhalb 
kurzer  Signalabschnitte  Giiltigkeit  besitzen,  so  daiJ  mit  hinreichender  Genauigkeit  von 
quasistationaren  Verhaltnissen  ausgegangen  werden  kann.  Bedingt  durch  physiologische 
und  physikalische  Gegebenheiten  setzt  dies  in  praxi  die  Berechnung  von  ca.  100  soldier 
Modelle  pro  Sekunde  voraus.  Die  nachfolgend  dargestellte  Ableitung  zeigt  den  im  Modul 
STIMME  UND  VOKALARTIKULATION  besdirittenen  tedinischen  Weg  von  der  Auf- 
zeichnung  des  Sprachsignales  iiber  die  Vorverarbeitung  und  Vokaltraktinodellierung  bis 
hill  zur  Ermittlung  der  zeitlichen  Verlaufe  der  beiden  Formanten  FI  und  F2. 

Decimation  und  Preemphasis:  Das  aufgezeichiiete  und  in  digitaler  Reprasentation 
vorliegende  Sprachsignal  (Samplingrate  22050  Hz,  Auflosung  16  Bit)  wird  zunachst  in 
zwei  nacheinander  ausgefiihrten  Schritten  vorverarbeitet,  das  ist  die  Decimation  und  die 
Preemphasis. 

Die  zu  erwartenden  Formantfrequenzen  sind  grundsatzlich  bei  dem  Vokal  /i/  am  hoch- 
sten,  sie  liegen  jedoch  sicher  unterhalb  einer  Prequenz  von  ca.  3000  Hz,  Damit  kann  die 
Samplingrate  urn  den  Faktor  2  reduziert  werden,  ohne  informationstragende  Signalantei- 
le  zu  eliminieren.  Die  hier  realisierte  Reduktion  der  Samplingrate  (Decimation)  richtet 
sich  nach  dem  Decimation-Algorithmus  gem.  IEEE  ([IEEE79])  und  erfolgt  in  2  Stufen: 

•  Tiefpafifilterung  des  Sprachsignales, 

•  Extraktion  nur  noch  jedes  2.  Samples. 

Das  Tiefpafifilter  ist  nach  [IEEE79]  als  Chebysliev-Filter  S.Ordnung  ausgefiihrt  mit 
0.05  dB  Ripple  im  Durchlafebereich.  Der  zugehorige  Amplituden-  und  Phasengang  des 
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Frecrjency  (Hertz) 

Abblldung  4.15.:  Amplituden-  und  Phasengang  des  verwendeten  Decimation-Filters 
(Chebyshev-Filter  8.  Ordnung  mit  0.05  dB  Ripple  im  DurchlaSbereich 
nach  IEEE). 

Decimation-FilteiB  ist  in  Abbildung  4.15  dargestellt. 

Nach  Abschlufi  der  Decimation  ist  die  Samplingrate  um  den  Faktor  2  reduziert,  sie  be- 
tragt  daher  fiir  alle  weiteren  Betrachtungen  nur  noch  11025  Hz. 

Die  folgende  HochpaRfilterung  (Preemphasis)  kompensiert  weitgehend  den  Tiefpafieffekt 
der  physiologischen  Abstrahlung  des  Sprachschalles  iiber  Mund  und  Lippen,  der  hohere 
Formanten  bedainpfen  und  somit  zu  Storungen  in  den  zeitlichen  Formantverlaufen  fiihren 
kann.  Hierfiir  wurde  ein  einfaches  Moving-Average  bzw.  FIR-Filter  getvahlt,  da  diese  Fil- 
tertypen  die  Eigenschaft  der  exakten  Linearphasigkeit  besitzen  und  damit  unerwunschte 
Phasenverzerrungen  vermeiden. 

Die  Systemfunktion  des  Preemphasisfilters  wurde  wie  folgt  gewahlt  (First-Difference- 
Filter): 

^fpre{z)  =  biZ~^  -f  b2Z~^  =  (4.1) 

Der  zugehorige  Amplituden-  und  Phasengang  ist  in  Abbildung  4.16  dargestellt. 

Segmentbildung:  Aus  dem  vorverarbeiteten  Sprachsignal  werden  nun  Ersatzmodelle 
fiir  den  Vokaltrakt  berechnet,  die  fiir  kurze  Zeitraume  (hier:  10ms)  Giiltigkeit  besitzen, 
Die  Parameter  dieser  Modelle  -  hier  die  Filterkoeffizienten  des  digitalen  Vokaltraktfil- 
ters  -  geben  Aufschlufi  iiber  die  tatsachlichen  Eigenschaften  des  realen  Vokaltraktes  des 


4.3.  Technische  Realisierung:  Entwickelte  Verfahren  und  Aigorithmen 


Frequency  (Hertz) 

Abbildung  4.16.:  Amplituden-  und  Phasengang  des  verwendeten  Preemphasis-Filters 
(FIR-Filter  2.  Ordnung) 

Patienten,  die  eine  sehr  exakte  Aussage  iiber  die  fur  Vokale  charakteristischen  Resonanz- 
frequenzen  (Formanten)  und  damit  letztlich  liber  die  korrekte  Stellung  der  Artikulatoren 
zulassen. 

Die  Modellierung  des  Vokaltraktes  erfolgt  iiber  das  Prinzip  der  linearen  Pradiktion  (Li¬ 
near  Predictive  Coding  LPC),  welche  eine  Kurzzeitanalyse  bzw.  die  Bildung  zeitlich  be- 
grenzter  Segmente  bedingt,  Hierzu  wird  bei  der  konkreten  MODIAS-Realisierung  das 
gesamte  vorverarbeitete  Sprachsignal  in  uberlappende  Segmente  zu  je  256  Samples  auf- 
geteilt.  Die  Startpunkte  aufeinanderfolgender,  uberlappender  Segmente  liegen  in  einem 
zeitlichen  Abstand  von  10ms,  damit  ist  auch  die  zeitliche  Auflosung  der  spateren  For- 
mantverlaufe  festgelegt  auf  100  Werte  pro  Sekunde.  Die  gewahlten  Werte  fiir  Segmentlan- 
ge  und  Oberlappung  finden  sich  in  diversen  Publikationen  (z.B.  in  [Rab78])  und  werden 
hier  ohne  weitere  Priifung  iibernommen. 


Vokaltraktmodellierung  durch  LPC-Analyse:  Die  folgenden  Erlauterungen  zeigen  das 
realisierte  Verfahren  der  linearen  Pradiktion  zur  Ermittlung  der  KoefRzienten  des  Vokal- 
traktfilters  auf.  Die  Ableitung  ist  im  wesentlichen  [Mark72]  und  [Mark73]  entnommen. 
Ausgangspunkt  fiir  alle  Folgebetrachtungen  ist  das  bekannte  Quelle-Filter-Modell  der 
Digitalen  Sprachverarbeitung  gem.  Abbildung  4.17. 

Die  verschiedenen  Methoden  der  linearen  Pradiktion  setzen  als  Annahme  voraus,  dafi  je- 
der  Sample  des  Sprachsignales  s(n)  durch  eine  Linearkombination  vorausgehender  Samp- 
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Pitch 


Abbildung  4.17.:  Quelle-Filter-Modell  der  Digitalen  Sprachsignalverarbeitung.  Die  An- 
regung  durch  die  Stimmbander  wird  hier  durch  einen  Pulsgenerator 
(bei  stimmhafter  Anregung)  bzw.  durch  einen  Rauschgenerator  (bei 
etimniloser  Anregung)  modelliert.  Die  Anregungsintensitat  wird  iiber 
den  variablen  Gainfaktor  G  beriicksichtigt.  Die  Artikulation  durch  den 
Vokaltrakt  wird  durch  ein  zeitvariantes  Digitalee  Filter  nachgebildet. 

les  nftlierungsweise  in  seiner  Amplitude  vorhergesagt  werden  kann.  Ein  linearer  Pradik- 
tor  vom  Grad  K  versucht  also,  aus  den  vorangegangenen  k  =  1...K  Abtastwerten  des 
Sprachsignales  den  gerade  aktuellen  Abtastwert  5(n)  durch  eine  moglichst  erwartungs- 
treue  Schatzung  5(n)  vorherzusagen. 

K 

5(n)  =  ois(n  —  1)  +  a2s(n  —  2)  +  ...  4-  a/^s(n  —  k)  =  ^afcs(n  ~  k)  (4.2) 

fc=i 

Die  Schatzung  jedes  einzelnen  Samples  ist  fehlerbehaftet  mit  dem  Pradiktionsfehler  bzw. 
Prkdiktions-Restsignal  e(n): 

K 

s{n)  =  s{n)  +  e(n)  =  ^  aks{n  —  k)  +  e(n)  (4.3) 

/fe=i 

Nach  einer  z- Transformation  beider  Seiten  der  Gleichung  4.3  stellt  sich  der  Zusammen- 
hang  wie  folgt  dar: 

K 

S{z)  ==Y.^kS{z)z-^  A  E{z)  (4.4) 

k=\ 

Beziehungsweise  gilt  nach  Umformung: 

S{z)  ==  E{z) - -  bzw.  S{z)  =  E{z)Hvok{z)  mit  (4.5) 

1  -  E 

fc=i 
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^ -  (4.6) 

1  -  E 

k=\ 

Durch  Einfuhrung  der  neuen  Systemfunktion  H^iokiz)  lafit  sich  der  Zusammenhang  gem. 
Gleichung  4.6  interpretieren  als  ein  LZI-System  mit  Systemfunktion  Hyoki^))  das  durch 
den  Pradiktionsfehler  e(n)  angeregt  wird  und  am  Ausgang  das  tatsachliche  Sprachsignal 
5(n)  produziert. 


Abbildung  4.18.:  Interpretation  der  Gleichung  4,6  als  ein  LZI-System,  das  durch  das  Pra- 
diktionsfehlersignal  e(n)  angeregt  wird  und  am  Ausgang  das  urspriing- 
liche  Sprachsignal  s(n)  generiert. 

Je  besser  dabei  die  Pradiktion  gelingt,  desto  starker  wird  das  Pradiktionsfehlersignal 
dekorreliert,  d.h.  die  statistische  Bindung  zwischen  den  Abtastwerten  reduziert.  Das 
Fehlersignal  nahert  sich  bei  optimaler  Pradiktion  idealerweise  weifiem  Rauschen,  daher 
wird  diese  Filter  auch  als  Spectral-  Whitening- Filter  bezeichnet. 

Der  Zusammenhang  mit  dem  Quelle-Filter-Modell  wird  jetzt  offensichtlich;  Die 
Systemfunktion  Hvoki^)  schatzt  die  Filtereigenschaften  des  realen  Vokaltraktes  inner- 
halb  kurzer  Zeitsegmente  unter  der  Annahme  von  Quasistationaritat,  da  das  reale 
Stimmbandsignal  im  Falle  stimmhafter  wie  auch  im  Falle  stimmloser  Anregung  ein 
rauschahnliches  Spektrum  und  damit  (rausch-)ahnliche  Eigenschaften  wie  das  Pradikti¬ 
onsfehlersignal  aufweist. 

Im  (realen)  Falle  endlicher  Pradiktionsgiite  und  geeignet  gewahlter  Pradiktorlange  (hier: 
Ar=16)  stellt  das  resultierende  Pradiktionsfehlersignal  der  linearen  Pradiktion  eine 
hinreichend  gute  Schatzung  fiir  die  Stimmbandanregung  dar. 

Das  zu  losende  Problem  liegt  nun  darin,  die  PradiktorkoefRzienten  derart  zu  wahlen, 
daS  der  Pradiktionsfehler  bezogen  auf  eine  definierte  Anzahl  von  Samples  minimal 
wird.  Wahlt  man  hierfiir  als  Kriterium  den  mittleren  quadratischen  Fehler  (Least- 
Mean-Square-Kriterium)  bzw.  die  Energie  des  betrachteten  Segmentes,  so  fiihrt  das 
Minimierungsproblem  zu  mathematisch  losbaren  Gleichungssystemen. 

£;  =  5];e2(n)!  =  A/m  (4.7) 


73 


4.  Realisierung  des  Modids  STIMME  UND  VOKALARTIKULATION 


Die  Bestininniiig  der  gesuchten  Pradiktorkoeffizienten  ok  erfolgt  in  dem  betrachteten 
MODIAS-Modul  nach  der  Autokorrelationsmethode  (eine  detailliertere  Beschreibung 
hierzu  findet  sich  in  [Mark72]). 

Dieser  Ldsungsansatz  setzt  einschiankend  voraus,  dafi  das  Sprachsignal  s{n)  aufierhalb 
des  Intervalles  7i  G  [0...N  —  1]  identisch  Null  ist  bzw.  mit  einer  entsprechenden  Rechteck- 
Fensterfunktion  nuiltipliziert  wird.  Damit  liefert  der  PrMiktionsfehler  e(n)  nur  innerhalb 
des  Intervalles  n  G  {O...A^  —  1  +  K]  Werte  ungleich  Null,  und  das  Minimierungsproblem 
aus  Gleichung  4.7  vereinfacht  sich  zu: 

N-\+K 

E  —  ^  e®(n)!  =  Min  (4.8) 

n=0 

Der  Vergleich  mit  Gleichung  4.3  zeigt,  dafi  der  Pradiktionsfehler  e(n)  bei  der  Autokor- 
relationsmeUiode  hohe  Werte  am  Anfang  des  betrachteten  Segmentes  n  G  [O.-./C  -  1] 
llefern  mufi,  da  der  Pradiktor  liier  eine  Schatzung  von  Samples  durch  Linearkombination 
aus  einer  Reihe  von  Nullen  erzwingt.  Das  gleiche  gilt  fur  das  Ende  des  betrachteten  Seg¬ 
mentes  n  G  [A’...A'  —  1  -f  A'];  hier  werden  umgekehrt  Nullen  aus  einer  Reihe  von  Samples 
(ungleich  Null)  gewonnen. 

Aus  djesem  Grund  ist  fiir  die  Autokorrelationsmethode  eine  geeignete  Fensterfunktion 
sinnvoll,  die  zum  Rand  des  Segmentes  auf  Null  abfallt  und  damit  diesen  Effekt  auszu- 
gleichen  versucht.  Im  beschriebenen  Anwendungsfall  wurde  hierzu  ein  Hamming-Fenster 
gewahlt.  Die  Elemente  des  Hamming-Fensters  konnen  wie  folgt  mathematisch  beschrie- 
ben  werden: 

ty(n)  =  0.54  -  0.46  cos(27r-^^|r^)  fur  alle  n  G  [0 . . .  N  -  1]  (4.9) 

Die  aus  Gleichung  4.9  resultierende  Form  des  Hamming-Fensters  ist  in  Abbildung  4.19 
dargestellt. 

Das  aus  Gleichung  4.8  resultierende  Gleichungssystem  ist  z.B.  in  [Mak72]  ausfiihrlich 
beschrieben.  Die  Ldsung  dieses  Gleichungssystems  fuhrt  zu  dem  gesuchten  Koeffizienten- 
satz  0.1 , 0.2  . .  •  Ofc. 

MODIAS  zieht  hier  die  rechenzeitsparende  Levinson-Durbin-Rekursion  heran,  die  u.a.  in 
(Rab78)  angegeben  ist  und  hier  nicht  welter  erlautert  wird. 

Auswahl  resonanzfShiger  Pole  und  Berechnung  der  Formantfrequenzen:  Das  so  er- 
haltene  Digitale  Filter  mit  der  Systemfunktion  enthalt  in  der  komplexen  z-Ebene 


74 


4.3.  Technische  Realisierung:  Entwickelte  Ver/ahren  und  Algorithmen 


Abbildung  4.19.:  Form  des  gewahlten  Hamming-Fensters,  In  MODIAS  wird  jedes  Signal- 
segment  s(n)  der  Lange  256  vor  der  LPC- Analyse  mit  einem  Hamming- 
Fenster  multipliziert,  um  so  den  entstehenden  Pradiktionsfehler  zu  den 
Segmentgrenzen  bin  nicht  iibermaftig  an^teigen  zu  lessen. 


nur  reelle  oder  konjugiert  komplexe  Polpaare,  jedoch  keine  Nullstellen  (AR-Filter  bzw. 
Allpol-Modell).  Dieses  Filtermodell  eignet  sich  daher  hervorragend  fiir  Vokale,  da  es  die 
fiir  diese  Lautklasse  typischen  tJberhohungen  in  der  zur  Systemfunktion  korrespondie- 
renden  tJbertragungsfunktion  \Hvok{joj)\  prinzipiell  zu  erzeugen  vermag.  Dabei  tragen 
die  konjugiert  komplexen  Polpaare  die  Information  iiber  die  Lage  (Frequenz)  und  iiber 
die  Auspragung  (Bandbreite)  dieser  spektralen  Resonanzen. 

Die  Polstellen  werden  im  beschriebenen  MODIAS-Modul  analytisch  durch  Nullstellen- 
berechnung  des  Nennerpolynoms  der  Systemfunktion  Hvok{z)  gewonnen  {Root-Solving- 
Verfahren).  Damit  gilt: 

^  K  K 

Der  Zusammenhang  zwischen  einem  konjugiert  komplexen  Polpaar  {zi,z*)  der  System¬ 
funktion  Hvok(z)  und  zugehoriger  Resonanzfrequenz  und  -bandbreite  im  Fourierspektrum 
kann  durch  tjbergang  von  der  z-Transformation  zur  Laplace-Transformation  hergestellt 
werden,  also  durch  Abbildung  des  komplexen  Einheitskreises  auf  die  komplexe  Fi-equen- 
zebene.  Die  Umrechnung  auf  Frequenz  F<  und  Bandbreite  Bj  wird  in  der  einschlagigen 
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Literatur  (ti.B.  in  [Rab78])  wie  folgt  angegeben: 

F,  =  ^arc(i^i)  Bi  =  ln(|^ii)  (4.11) 

Probleniatisch  ist  bei  jecler  Formantanalyse  die  Zuordnung  der  so  gewonnenen  Reso- 
nanzfrequenzen  zu  den  tatsachlichen  Formanten,  denn  nicht  jedes  konjugiert  komplexe 
Polpaar  erzeugt  aucb  eine  sichtbare  Uberhohung  im  Spektrum.  Wahrend  die  in  der 
Literatur  angegebenen  Verfahren  an  dieser  Stelle  bei  der  Berechnung  der  Formantfre- 
quenzen  Nalierungen  benutzen  und  zusatzlich  Plausibilitatskriterien  unter  Abstutzung 
auf  Erfahriingswerte  bei  Nonnsprechern  heranziehen,  kann  bei  sprechgestorten  Patienten 
nicht  auf  derartige  Norinwerte  zuriickgegriffen  werden. 


Aus  dieseni  Grund  wurde  zur  Realisierung  des  MODIAS-Moduls  ein  Verfahren 
entwickelt,  um  sowohl 


•  Formanten  von  Spectral-Shaping- Poles  algorithmisch  unterscheiden  und 

•  Formanten  in  ihrer  Frequenzlage  holier  auflosen 


zu  konnen.  Fiir  die  nun  folgende  Betrachtung  wird  die  Systemfunktion  Hyok(^)  des  Vo- 
kaltraktfilters  in  tJbertragungssystenie  2.  Ordnung  zerlegt,  also  in  grundsatzlich  reso- 
nanzfahige  Subsysteme  mit  je  einem  konjugiert  koniplexen  Polpaar: 


= - ji - =  - - -i - =  Hi(z)  ■  H2(z)  ■Hziz)...  (4.12) 

k=l  jb=:l 

Die  Systemfunktion  H^okiz)  kann  also  bei  gerader  Anzahl  von  Polpaaren  bzw.  gerader 
Pradiktorlange  K  als  Kettenschaltung  von  O.SAT  Teilsystemfunktionen  2.  Ordnung  Hi{z) 
dargestellt  werden. 


Die  Teilsystemfunktion  Hi{z)  mit  einem  komplexen  Polpaar  {zi,z*)  lautet: 

""  {l~ziz~-^){l-zrz-'^) 

Die  Lage  des  Polpaares  stellt  sich  dann  in  der  komplexen  z-Ebene  gem.  Abbildung  4.21 
(linke  Bildhalfte)  dar. 

Dabei  korrespondieren  die  kartesische  und  die  polare  Darstellung  der  komplexen  Grofie 
Zi  gem.  folgendem  Zusammenhang: 


(4.14) 
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Abbildung  4.20.:  Zerlegung  der  urspriinglichen,  den  menschlichen  Vokaltrakt  modellie- 
renden  Systemfunktion  H^okiz)  in  eine  Kette  von  (prinzipiell  resonanz- 
fahigen)  Teilsystemfunktionen  2.  Ordnung 

Der  tibergang  von  der  Teilsystemfunktion  Hi{z)  mit  komplexer  Polstelle  zi  zur 
entsprechenden  Laplace-Transformierten  Hi{s)  mit  komplexer  Polstelle  $i  lafit  sich 
durch  Einfiihrung  der  in  der  Regelungstechnik  bekannten  Grofien  wie  Dampfungsgrad 
d  ,  Kennkreisfrequenz  tOp  und  Eigenkreisfrequenz  Ue  (Einfiihrung  in  Gleichung  4.16) 
anschaulicher  darstellen  (in  Anlehnung  an  [Boe88]). 


Damit  lautet  die  Laplace-Darstellung: 


Hiia)  = 


(4.15) 


Die  Lage  des  Polpaares  (5i,5*)  stellt  sich  dann  in  der  komplexen  s-Ebene  gem.  Abbil¬ 
dung  4.21  (rechte  Bildhalfte)  dar.  Mit  den  eingefiihrten  Grofien  laftt  sich  die  kartesische 
Darstellung  der  komplexen  Gr6£e  sj  auch  anders  darstellen: 

Si  =  Re(sj)  +  jlm(5i)  =  -dcoo+joje  (4.16) 


Ein  tibertragungssystem  2.  Ordnung  befindet  sich  fiir  Dampfungsgrade  0  <  d  <  1  im 
Schwingfall,  die  Polstelle  wandert  dann  in  der  s-Ebene  je  nach  Wert  der  Variable  d 
auf  der  gestrichelt  eingezeichneten  Ortskurve.  Damit  lafit  sich  die  Eigenkreisfrequenz  Wg 
trigonometrisch  berechnen  zu 

uJe  =  Wo\/l  -  cfi  (4.17) 

In  der  Literatur  wird  die  Formantfrequenz  Fj  unmittelbar  aus  dem  Imaginarteil  der  kom¬ 
plexen  Frequenz  Si,  die  zugehbrige  Formantbandbreite  Sj  aus  dem  Realteil  der  komplexen 
ihequenz  Sj  abgeleitet  und  es  ergeben  sich  die  bekannten  Ausdriicke  gem.  Gleichung  4.11. 
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Abbildung  4.21.:  Darstellung  des  komplexen  Polpaares  {zi,z*)  der  Teilsystemfunktion 
Hi{z)  in  der  komplexen  ar-Ebene  (linke  Bildhalfte)  und  des  korrespon- 
dierenden  komplexen  Polpaares  (s^,  s-)  in  der  komplexen  s-Ebene  (rech- 
te  Bildhalfte). 

Ein  tjbertragungssystem  2.  Ordnung  kann  aber  nur  dann  eine  tatsachliche  spek- 
trale  Oberholumg  zeigen,  wenn  die  zugehorige  Obertragungsfunktion  bei  der 

entsprechenden  Resonanzkreisfrequenz  eine  Amplitude  erzeugt,  die  auch  tatsachlich 
iiber  der  bei  der  Kreisfrequenz  w  =  0  liegt.  Die  Abbildung  4.22  soil  diesen  Zusammen- 
hang  veranschaulichen. 

Gem.  [Boe88]  treten  bei  Ubertragungssystemen  2.  Ordnung  Resonanziiberhohungen  erst 
dann  auf,  wenn  fvir  den  Dampfungsgrad  d  gilt: 

<i<i  (4.18) 

Der  Ort  der  Resonanziiberhohung  liegt  dann  bei  der  Resonanzkreisfrequenz  LOr'. 

UJr  =  Wo\/l  -2d2  (4.19) 

und  damit  stets  unterhalb  der  Eigenkreisfrequenz  Wg. 


4.3.  Technische  Realisierung:  Entwickelte  Verfahren  und  AlgorJthinen 


Frequency  (Hertz) 


Abbildung  4.22.:  Simulierter  Amplitudengang  eines  tlbertragungssystems  2.0rdnung  mit 
einer  Resonanziiberhohung  bei  der  Fl'equenz  von  1500  Hz. 

Nach  Umrechung  kann  dieser  Ort  der  Resonanziiberhohung  (und  damit  die  exak- 
te  Formantfrequenz)  auch  direkt  aus  der  Lage  des  Polpaares  (zi,z*)  abgeleitet  werden: 

■PV  =  ^  =  ~^arc^Zi)-ln^\zi\  (4.20) 

Die  Gleichung  4.11  stellt  also  eine  Naherung  gegeniiber  Gleichung  4.20  dar,  die  exakten 
Werte  fiir  die  Formantfrequenzen  liegen  stets  unterhalb. 

Um  zu  bewerten,  wie  sich  diese  Naherung  auswirkt,  ist  in  Abbildung  4.23  zu- 
nachst  die  geschatzte  Formantfrequenz  als  Funktion  gem.  Gleichung  4.11  iiber  der 
komplexen  z-Ebene  dargestellt. 

Unabhangig  vom  Betrag  einer  Polstelle  steigt  bei  Erhohung  der  Phase  die  geschatzte 
Formantfrequenz  linear  an  (Bewegung  auf  der  dargestellten  Oberflache  von  oben  gesehen 
im  Uhrzeigersinn).  Sie  erreicht  ihren  Maximalwert  der  Nyquistfrequenz  bei  arc(z)  =  n. 

Demgegeniiber  ist  der  nach  Gleichung  4.20  exakt  berechnete  Verlauf  der  Reso- 
nanzfrequenz  (also  zugleich  auch  der  tatsachlichen  Formantfrequenz)  in  Abbildung  4.24 
dargestellt. 

Die  jetzt  entstehende  Flache  zeigt  besondere  Eigenschaften: 

•  Die  Resonanzfrequenz  wachst  nur  am  Rand  (d.h.  fiir  \z\  -4  1)  direkt  proportional 
zur  Phase  arc{z)  an. 
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Abbildung  4,23.:  Abhangigkelt  der  nach  Gleichung  4.11  geschatzen  Formantfrequenz  von 
der  Lage  des  korrespondierenden  konjugiert  komplexen  Polpaares  in 
der  2r-Ebene  (die  Imaginarachse  der  2r-Ebene  zeigt  nach  rechts).  Bei 
konstantem  Betrag  und  steigender  Phase  steigt  auch  die  geschatze  For¬ 
mantfrequenz  linear  an. 

•  Je  kleiner  der  Betrag  \z\,  desto  starker  ist  die  Linearitat  des  Zusammenhangs  zwi- 
Bchen  Phase  orc(z)  und  Resonanzfrequenz  verletzt. 

•  Es  gibt  einen  relevanten  Bereich  der  z-Ebene,  der  keine  Resonanzen  zulaEt,  auch 
wenn  die  Polstellen  konjugiert  komplex  sind  und  damit  prinzipiell  resonanzfahig 
waren.  Polstellen  am  Rand  dieses  Bereiches  miissen  zu  sehr  stark  variierenden  Re- 
sonanzfrequenzen  fiihren,  da  sich  hier  die  Neigung  der  Flache  abrupt  andert. 

Die  Differenz  der  beiden  Kurven  gem.  Abbildung  4.25  stellt  den  absoluten  Fehler 
grafisch  dar,  der  bei  der  Naherung  gem,  Gleichung  4.11  gegeniiber  der  exakten  Losung 
gem.  Gleichung  4.20  entsteht.  Der  Fehler  nimmt  bei  ungiinstiger  Pollage  betrachtliche 
Werte  an.  Er  sollte  hier  nicht  vernachlassigt  werden,  da  bei  der  haufig  vorkommenden 
Hypernasalitat  sprechgestorter  Patienten  hohere  Poldampfungen  auftreten,  die  diesen 
Effekt'des  Fehleranstiegs  begiinstigen, 


4.3.  Technische  Realisierung:  Entwickelte  Verfahren  und  Algorithmen 


Abbildung  4,24.:  Abhangigkeit  der  nach  Gieichung  4.20  exakt  berechneten  Fonnant- 
frequenz  von  der  Lage  des  korrespondierenden  konjugiert  komplexen 
Polpaares  in  der  2:-Ebene  (die  Imaginarachse  der  «-Ebene  zeigt  nach 
rechts).  Gegeniiber  Abbildung  4.23  zeigen  sich  deutliche  Abweichungen. 
Zusatzlich  tritt  hier  ein  relativ  grower  Bereich  innerhalb  der  z-Ebene 
auf,  der  auch  aus  konjugiert  komplexen  Polpaaren  gar  keine  Resonan- 
zen  ausbilden  kann. 

Bei  der  Realisierung  von  MODIAS  wurde  die  exakte  Losung  zur  Berechnung  der 
Form  antfrequenzen  beriicksichtigt . 

Die  Selektion  resonanzfahiger  Polpaare  (bei  einem  wie  in  MODIAS  gewahlten 
Pradiktorgrad  if=16  gibt  es  8  Polpaare)  zur  Gewinnung  von  Formantkandidaten  fiir 
das  nachgeordnete  Formant- Tracking- Verfahren  nutzt  die  besonderen  Eigenschaften 
der  Punktion  gem.  Gieichung  4.20  aus.  Durch  Umrechnung  kann  leicht  ein  Kriteriura 
abgeleitet  werden,  welches  diejenigen  konjugiert  komplexen  Polpaare  direkt  in  der 
z-Ebene  ausschliefit,  die  keine  Resonanziiberhohungen  erz^ugen  kbnnen. 

Ein  konjugiert  komplexes  Polpaar  (zi,z*)  erzeiigt' nur  dann  eine  sichtbare  Resonanz 
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Abbildung  4.25.:  Absoluter  Fehler  in  der  Berechnung  der  Pormantfrequenz  durch  die  iib- 
lich  verwendete  Naherung  nach  Gleichung  4.11  gegeniiber  der  exakten 
Losung  nach  Gleichung  4.20.  Gerade  die  Polstellen  mit  hoherer  Damp- 
fung  (also  kleinerem  Betrag  |z[)  fiihren  in  der  Praxis  haufig  zu  Sto- 
rungen  bis  hin  zur  volligen  Divergenz  von  nachgeordneten  Formant- 
TVackingverfahren.  Bei  der  Realisierung  von  MODI  AS  wurde  dieser  Ef- 
fekt  entsprechend  beriicksichtigt. 

im  Fourierspektrum  (Formant),  wenn  Betrag  und  Phase  in  folgendem  Zusammenhang 
stehen  (Resonanzkriterium); 

I^.|  >  e-arc(.0  (4  21) 

Dieses  Kriterium  wurde  bei  der  Realisierung  des  MODIAS-Moduls  implementiert. 


4. 3. 1.2.  Formant-Tracking 

Die  vorangegangene  Berechnung  selektierte  fiir  jedes  Signalsegment  der  Lange  256  die- 
jenigen  konjugiert  komplexen  Polpaare  der  Systemfunktion  die  auf  Grund  ih- 

rer  giinstigen  Eigenschaften  spektrale  tJberhohungen  in  der  korrespondierenden  Ober- 


82 


4.3.  Technische  Realisierung:  Entwickelte  VerfaJiren  und  AJgorithmen 


tragungsfunktion  \Hvok{3^)\  zu  erzeugen  vermogen.  Aufgabe  eines  Formant-Tracking- 
Verfahrens  ist  es  nun,  aus  dieser  Teilmenge  pro  Segment  genau  die  beiden  Polpaare  zu 
extrahieren,  die  die  diagnostisch  relevanten  Formanten  Fl  und  F2  reprasentieren  und 
deren  zeitlichen  Verlauf  von  Segment  zu  Segment  zu  verfolgen.  Dieses  Problem  ist  nicht- 
trivial  und  stellt  die  wohl  groEte  Herausforderung  an  eine  brauchbare  Formantanalyse 
dar. 

Bei  der  Realisierung  des  beschriebenen  MODIAS-Moduls  wird  zunachst  eine  Polfrequenz- 
matrix  Q  gebildet.  Jede  Spalte  j  dieser  Matrix  korrespondiert  dabei  mit  einem  Signal- 
segment,  die  Zeilen  %  der  Matrix  beinhalten  die  noch  verbliebenen  Polfrequenzen  des 
betrefFenden  Segmentes  in  frequenzmafiig  aufsteigender  Sortierung. 

Im  Idealfalle  stellt  nun  die  erste  Zeile  der  Matrix  bzw,  Q\^j  den  zeitlichen  Verlauf  des  For¬ 
manten  Fl  und  die  zweite  Zeile  Q2J  analog  den  Verlauf  des  Formanten  F2  als  Parameter- 
Zeit-Kontur  dar,  Bedingt  u.a.  durch  variierende  Phasenlagen  des  Sprachsignales  im  jewei- 
ligen  Segment  ist  eine  solche  starre  Zuordnung  zwischen  Polfrequenzen  und  Formanten 
nicht  immer  moglich,  da  von  einem  Segment  zum  nachsten 

•  echte  Formanten  unvermittelt  ausfallen  (Formant-drop-outs)  oder 

•  unechte  Formanten  sporadisch  auftauchen,  die  im  ungiinstigen  Falle  frequenzma- 
fiig  unterhalb  von  Fl  bzw.  zwischen  Fl  und  F2  iiegen  und  damit  fehlinterpretiert 
wiirden  (Spectral-Shaping-Poles) . 

Normalerweise  bedienen  sich  an  dieser  Stelle  die  publizierten  Formant-TVacking- 
Verfahren  eines  Plausibilitatskriteriums  durch  Vergleich  der  avisierten  Formantkandi- 
daten  mit  tabellierten  Normwerten  fiir  mittlere  Formantlagen  bei  Normsprechern.  Im 
Projekt  MODIAS  kann  aber  bedingt  durch  mannigfaltige  Stdrungsprofile  der  sprech- 
pathologischen  Zielgruppe  von  keinerlei  Normwerten  mehr  ausgegangen  werden.  Damit 
bleibt  nur  die  Auswahl  der  wahrschemlichsten  Formantkandidaten  aus  der  Polfrequenz- 
matrix  selbst  und  die  segmentweise  Verfolgung  dieser  Kandidaten  unter  Zuhilfenahme 
heuristischer  Plausibilitatskriterien,  die  sich  im  wesentlichen  aus  den  physikalischen  Mas- 
sentragheiten  des  menschlichen  Vokaltraktes  ableiten  lassen. 

Ableitung  der  Tracking-Startwerte  fiir  Fl  und  F2:  Die  Startwerte  fiir  das  folgende 
Formant-Tracking  werden  aus  einem  heuristischen  Ansatz  gewonnen. 
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Fiir  den  Fonnant.  FI  wird  aus  der  ersten  Zeile  der  Polfrequenzmatrix  bzw.  Qij  (Roh- 
verlauf  FI)  der  Median  gebildet.  Auf  Grnnd  seiner  Berechnungsmodalitat  ist  ein  Median 
robust  gegenaber  AusreiUern  und  er  wird  durch  solche  -  im  Gegensatz  zum  Mittelwert 
-  auch  nicht  verfalscht,  Danacii  wird  der  Zeitpunkt  (Spaltenindex  j)  gesucht,  an  dem 
der  Rohverlauf  FI  (Matrixzeile  den  gerade  ermittelten  Median  erstmals  uber-  oder 
unterschreitet. 

Der  Spaltenindex  j  markiert  daniit  den  Startzeitpunkt,  die  zugehorige  Polfrequenz  mar- 
kiert  die  Startfrequenz  fiir  das  anschliel^ende  Formant- Tracking. 

Die  Ableitung  des  Startw'erts  fiir  den  Formant  F2  wird  analog  durch  Betrachtung  des 
Rohverlaufes  F2  (2.  Zeile  der  Polfrequenzmatrix)  gewonnen. 

Tracking-Strategie:  Das  folgende  Trackingprinzip  reagiert  auf  die  folgenden  4  denkba- 
ren  Storeinflufie: 

•  unvermittelter  Ausfall  des  Formanten  FI, 

•  unvermittelter  Ausfall  des  Formanten  F2, 

•  sporadisches  Auftreten  eines  Spectral-Shaping- Poles  unterhalb  von  FI, 

•  sporadisches  Auftreten  eines  Spectral-Shaping-Poles  zwischen  FI  und  F2. 

Die  Korrekturstrategie  bei  diesen  4  moglichen  Stdrungsarten  ist  in  Abbildung  4.26  gra- 
fisch  veranschaulicht.  Beim  Obergang  von  einem  Segment  zum  nachsten  (Spalten!)  wird 
stets  die  frequenzmS.£ig  nachstgelegene  Polfrequenz  gewahlt,  die  ein  heuristisches  Homo- 
genitatskriterium  (relative  Anderung  von  einem  Segment  zum  nachsten,  also  innerhalb 
von  5  ms  maximal  5  Prozent)  erfiillt.  Dieser  Vorgang  wird  in  der  Matrix  in  beiden  Rich- 
tungen  vom  extrahierten  Tracking-Startwert  aus  durchgefiihrt. 

Gl^ttung  der  FormantverlSufe:  AbschlieEend  werden  die  beiden  so  gewonnenen  For- 
mantverlaufe  FI  und  F2  einer  2-stufigen  nichtlinearen  Glattung  nach  Rabiner  ([Rab75]) 
unterzogen.  Dieses  Glattungsverfahren  wurde  fiir  das  beschriebene  Projekt  herangezogen, 
da  es  die  Vorteile  einer  linearen  Glattung  mit  symmetrischem  FIR-Filter  (exakte  Delay- 
kompensation,  Entfernimg  rauschartiger  Storungscharakteristik  moglich)  und  die  Vorteile 
einer  nichtlinearen  Glattung  mit  Running-Median-Filter  ungerader  Lange  (Entfernung 
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1  RolivetlsufF2 

TilgungFl  I 
Korreklur  F2 

TilgjngF2  Komklur 

FIundF2  Korreklur  F2 

Abbildung  4.26.:  Suchalgorithmus  innerhalb  der  Polfrequenzmatrix  Q  zur  Verfolgung  der 
(echten)  Formanten  FI  und  F2  bei  den  4  mdglichen  Storungsarten  durch 
Formant-Drop-Outs  oder  unerwiinschter  Spectral-Shaping-Poles  (SSP). 

von  AusreiSern  mdglich,  geglattete  Werte  sind  stets  in  der  Originalkontur  enthalten) 
kombiniert.  Das  Blockschaltbild  zum  verwendeten  Glattungsverfahren  ist  in  Abbildung 
4.27  dargestellt. 

Die  nichtlineare  Glattung  erfolgt  hier  durch  zwei  hintereinandergeschaltete  Ruiiiiing- 
Median-Filter  der  Langen  5  und  3,  die  lineare  Glattung  durch  FIR-Hamming-Filter  der 
Lange  3. 

Das  vorgestellte  Formantanalyse-  und  Formant-Tracking- Verfahren  hat  sich  in  zahlrei- 
chen  Tests  und  praktischen  Anwendungen  bewahrt.  Dennoch  sind  Tracking- Fehler  nicht 
auszuschliefien,  die  besonders  bei  einem  Versagen  der  erforderlichen  Startwerte  zu  ekla- 
tanten  Mefifehlern  bzw.  zur  Divergenz  des  Suchalgorithmus  fiihren  konnen.  Wie  bereits 
beschrieben,  konnen  im  konkreten  Fall  neurogener  Sprechstorungen  derart  starke  Abwei- 
chungen  der  Formantlagen  von  den  Lagen  gesunder  Sprecher  auftreten,  dafi  der  Anspruch 
an  eine  vollstandig  automatisierte  Berechnung  der  akustischen  Parameter  nicht  realistisch 
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Abbilclung  4.27.:  Verwendetes  Verfahren  nach  [Rab75)  zur  Glattung  der  zeitlichen  For- 
mantverlaufe  FI  und  F2.  Der  Algorithmus  kombiniert  die  Vorteile  li- 
nearer  uiid  nichtlinearer  Glattung  und  ist  fiir  Rohparameterverlaufe  mit 
Rauschstdrungen  und  sporadischen  Ausreifiern  konzipiert. 

und  eine  fallweise  Interaktion  des  Untersucliers  unumganglich  erscheint.  Daher  wurde  in 
das  Untersuchungsprotokoll  die  Darstellung  sogenannter  LPC-Spektren  integriert  mit  der 
Option,  daft  bei  Verdacht  auf  startwertbedingte  Trackingfehler  entsprechend  korrigierte 
Startwerte  direkt  in  diesem  LPC-Spektrum  vorgegeben  werden  konnen.  Sie  bieten  den 
Vorteil,  die  Formantfrequenzen  wesentlich  besser  abzubilden  als  die  Fourierspektren  des 
Sjjrachsignales  selbst. 

Berechnung  der  LPC-Spektren;  Die  LPC-Spektren  sind  die  korrespondierenden  Ober- 
tragungsfunktionen  zu  den  mittels  Unearer  Pradiktion  geschatzten  Vokaltraktfiltern.  Sie 
eliininieren  systeinbedingt  den  Einflufi  der  Stiinmbandschwingung  und  etellen  daher  ei¬ 
ne  geglattete  Form  des  Spraclisignalspektrums  dar.  Die  LPC-Spektren  eignen  sich  daher 
besonders  zur  Visualisierung  der  Formanten,  die  im  urspriinglichen  Spektrum  teilweise 
nur  schwer  erkennbar  sind.  Abbildung  4.28  zeigt  das  typische  (rauhe)  Leistungsdichte- 
spektruin  und  das  korrespondierende  (glatte)  LPC-Spektrum  fiir  den  Vokal  /i/. 

Das  Vokaltraktfilter  mit  der  Systemfunktion  H^,git{z)  gem.  Gleichung  4,6  ist  im  Zeitbe- 
reich  allgemein  durch  eine  Eingangsgrofte  3;(7^)  und  eine  Ausgangsgrofte  y(n)  darstellbar: 

y{n)  =  .'r(n)  +  aiy{n  -  1)  -f-  a2y{n  -2)  +  ...  +  o/<-t/(n  -  K)  (4. 22) 

Die  Impulsantwort  /iDoib(jr)  des  Vokaltraktfilters  auf  den  Einheitsimpuls  .e(n)  = 

(1,0,0, . . .]  ergibt  sich  durch  Anwendung  der  Gleichung  4.22  zu: 

Kokif^)  =  [l,ai,a2, ...  (OA-, 0,0, 0,0,0 .. .]  (4.23) 

Damit  stellen  die  Samples  2 ...  AT  -t- 1  die  PradiktorkoefRzienten  dar.  MODIAS  ermittelt 
die  LPC-Spektren  durch  Fouriertransformation  der  einfach  aufzustellenden  Impulsant- 
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Abbildung  4.28.:  Leistungsdichtespektrum  (rauhe  Kurve)  und  LPC-Spektrum  (glatte 
Kurve)  am  Beispiel  des  Vokals  /i/.  Wahrend  die  Formanten  im  Lei¬ 
stungsdichtespektrum  aufgrund  des  noch  vorhandenen  Einflusses  der 
Stimmbandanregung  schwer  erkennbar  sind,  treten  diese  im  LPC- 
Spektrum  deutlich  sichtbar  hervor. 

wort.  Dabei  wird  die  Impulsantwort  zuvor  mit  Nullen  auf  die  Lange  256  aufgefullt. 

4. 3. 1.3.  Abgeleitete  akustlsche  Parameter  zur  PrUfung  des  Artikulationsraumes 

Ausgangspunkt  fiir  alle  abgeleiteten  akustischen  Parameter  sind  die  ermittelten  For- 
mantverlaufe  FI  und  F2.  Dem  Untersucher  solien  ausschlieftlidi  diejenigen  akustischen 
Parameter  dargeboten  w'erden,  die  eine  hohe  diagnostische  Relevanz  besitzen  und  ihn 
damit  weder  mit  irrelevanter  noch  mit  redundanter  Information  uberfordern.  Aus  dia- 
gnostischer  Sicht  sind  folgende  akustische  Informationen  von  Interesse: 

•  Beurteilung  der  mittleren  Lagen  der  Formantpaare  F1/F2  fiir  jeden  Vokal, 

•  Beurteilung  der  Stellungsanderung  relevanter  Artikulatoren  durch  Vergleich  der 
Formanten  verschiedener  Vokale  (z.B.  F2-Absenkung  von  /i/  zu  /y/  wegen  Lip- 
penrundung), 

•  Beurteilung  der  artikulatorischen  Kontrastierfahigkeit  und  Prufung  des  Artiku¬ 
lationsraumes  durch  Projektion  der  Formantpaare  F1/F2  in  die  2- dimension alen 
Fl/F2-Ebene  (Formantkarte), 
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•  Beurteilung  der  Lagestabilitat  relevanter  Artikulatoren  dutch  die  Darstellung  der 
zeitlichen  Verlaufe  der  Formanten  FI  bzw.  F2. 

Im  beschriebenen  MODIAS-Modul  werden  hierzu  aus  den  Formantverlaufen  durch  Me- 
dianbildung  die  mittleren  Formanten  FI  bzw.  F2  fiir  jeden  der  betrachteten  Vokale  ge- 
wonnen.  Die  zeitlichen  Verlaufe  wie  auch  die  mittleren  Formantlagen  werden  dem  Unter- 
siicher  in  verschiedenen  grafischen  Darstellungsvarianten  -  wie  bereits  bei  der  Bedienung 
beschrieben  -  angeboten.  Die  Priifung  der  artikulatorischen  Kontrastierfahigkeit  erfolgt 
iiber  die  Beurteilung  der  Flache,  die  in  der  2-dimensionalen  Fl/F2-Ebene  von  den  Voka- 
len  /i/,  /u/  und  /a/  aufgespannt  wird. 
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4,3.2,  Verfahren  zur  Analyse  von  Stimmqualitat  und  Stimmstabilitat 

4.3. 2.1.  Bestimmung  des  Grundfrequenzverlaufs  und  dessen  Parametrierung 

Die  Basis  jeder  Stimmqualitats-  bzw.  Stimmstabilitatsanalyse  ist  stets  ein  Algorithmus 
zur  Extraktion  des  Grundfrequenzverlaufs.  Gerade  die  Variabilitat  von  einem  Stimmrit- 
zenverschlufJ  zum  nachsten  bzw.  die  Vollstandigkeit  des  Stimmritzenverschlusses  enthalt 
dabei  die  diagnostisch  relevante  Information.  Daher  sind  an  diesen  Algorithmus  hohe 
Genauigkeitsanforderungen  zu  stellen. 

Fiir  eine  akustische  Analyse  mussen  somit  die  relevanten  Schwankungen  im  Verlauf  der 
Grundfrequenz  zum  einen  abgebildet  und  durch  geeignete  Parameter  beschrieben  wer- 
den,  zum  anderen  diirfen  diese  Effekte  aber  nicht  durch  Vorverarbeitungsschritte,  wie 
fei.B.  Filterungen,  verfalscht  oder  gar  eliminiert  werden.  Zusatzlich  gewinnt  der  Anspruch 
an  ein  geeignetes  Verfahren  weitere  Komplexitat,  wenn  mehrere  Storungsmuster,  wie  in 
der  Praxis  haufig  vorkommend,  gleichzeitig  auftreten.  Dies  darf  nicht  zur  teilweisen  oder 
gar  vollstandigen  Divergenz  des  Algorithmus  fiihren. 

Die  bekannten  Verfahren  zur  Ermittlung  des  Grundfrequenzverlaufes  lassen  sich  nach 
[Par99]  in  zwei  Kategorien  einteilen: 

•  Ereignis-Detektionsverfahren,  die  eine  Schatzung  der  Grundfrequenz  aufgrund  par- 
tieller  Ereignisse  wie  positiver  oder  negativer  Peaks  bzw.  Nulldurchgange  im  Oszil- 
logramm  vornehmen; 

•  Kurzzeit-Analyseverfahren,  die  eine  Schatzung  durch  Mittelungen  innerhalb  eines 
einstellbaren  Analysefensters  gestatten. 

Ein  Vergleich  der  wichtigsten  und  zum  Zeitpunkt  der  Erstellung  der  vorliegenden  Arbeit 
aktuellen  Verfahren  ist  in  (Par99]  publiziert.  Im  Rahmen  dieses  Vergleichs  an  normalen, 
gestorten  und  synthetischen  Stimmen  konnte  gezeigt  werden,  dafi  die  Leistungsfahigkeit 
samtlicher  Verfahren  bei  steigendem  Stimmstorungsgrad  sinkt  oder  ganz  zum  Erliegen 
kommt. 

Keines  der  Verfahren  liefert  detailliertere  Parameter  zu  den  Stimmband- 
Schwingungsanomalien,  z.B.  fiir  langsame  Schwankungen  der  Grundfrequenz  oder 
generelle  Auf-  bzw.  Abwartstrends  in  deren  zeitlichem  Verlauf. 

Bei  der  Realisierung  des  beschriebenen  MODIAS-Moduls  wurde  daher  ein  eigener 
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Algorithmus  entwickelt,  der  die  folgenden  Storungamuster  von  klinischer  Relevanz  im 
Ansatz  bervlcksicht: 

•  Die  Gnindfrequenz  kann  wahrend  der  Vokalisation  einem  Auf-  oder  Abwartstrend 
untei'liegen  (Iin  Folgenden  als  Pitch-Trend  bezeichnet). 

•  Die  Grundfrequenz  kann  durch  Storungen  der  Sprechatmung  und  Instabilitaten 
des  Stimnibandtonus  relativ  langsam  um  den  TVend  schwanken  (Im  Folgenden  als 
Langsame  Pitch- VariabilUdt  bezeichnet). 

•  Die  Grundfrequenz  kann  relativ  scbnell,  d.h.  von  Periode  zu  Periode  variieren  (Im 
Folgenden  als  Jitter  bez^eiclinet). 

Weiter  konkretisiert  bedeutet  dies,  dafi  die  Parameter  Pitch-Trend,  Pitch- Variabilitat  und 
Jitter  moglichst  voneinander  unabhangige  Grofien  darstellen  sollen. 

Der  hierzu  entworfene  Algorithmus  detektiert  im  Zeitbereich  samtliche  Schwingungsma- 
xima  des  Sprachsiguales  nach  einem  adaptiven  Suchverfahren  (Pitch-Perioden-Tracking) 
und  unterzieht  anschliefiend  den  so  gevvonnenen  zeitlichen  Grundfrequenzverlauf  einer 
Btatistischen  Analyse  (Pitch-Verlaufsanalyse). 


Pitch-Perioden-Tracking:  Zur  Detektion  jedes  einzelnen  Schwingungsmaximums  wur- 
de  hier  ein  Ereignisdetektionsverfahren  entwickelt.  Im  Prinzip  wird  jedes  Schwingungs- 
maximum  des  Sprachsignals  mit  einer  (Pitch-)Marke  versehen,  deren  zeitliche  Abstan- 
de  anschliefiend  in  Periodendauern  bzw.  Pitch-Frequenzen  umgerechnet  werden  konnen. 
Entscheidend  fiir  die  Kojivergenz  des  Verfahrens  sind  drei  Faktoren: 

•  Die  erste  Pitch-Marke  zum  Zeitpunkt  ti  muft  auf  einem  tatsachlichen  Schwingungs- 
maximum  liegen  (kein  Artefakt!). 

•  Der  zeitliche  Abstand  zur  zweiten  Pitch-Marke  mufi  durch  eine  gute  Pitch- 

Periodendauer-Schatzung  Tmi  mit  einer  definierten,  zeitlichen  Unscharfe  vorher- 
gesagt  werden  konnen. 

•  Der  Pitch  darf  wahrend  der  Vokalisation  des  Probanden  nur  innerhalb  definierter 
Grenzen  schwanken. 


4.3.  Technische  Realisierung:  Entwickelte  Verfahren  und  AJgorithmen 


Dew.  in  digitaler  Reprasentation  vorliegenden  Sprachsignal  s(n)  warden  zunachst  nach- 
einander  3  Signalabschnitte  (beginnend  ab  dem  Einsatz  der  Vokalisation  des  Patienten) 
der  Lange  iV=1024  entnommen.  Durch  das  Kurzzeit- Verfahren  der  homomorphen  bzw. 
cepstralen  Analyse  (z.B.  beschrieben  in  [Hes83])  wird  fiir  jeden  der  3  Abschnitte  jeweils 
1  Pitch-Grobschatzwert  gewonnen;  der  Median  dieser  3  Schatzungen  bzw.  dessen  Kehr- 
wert  Tini  wird  als  Startwert  fiir  das  folgende  Ereignis-Detektionsverfahren  herangezogen. 

Die  erste  Pitch-Marke  (Ereignis  E\  zum  Zeitpunkt  ii)  wird  aus  dem  absoluten 
Maximum  des  Sprachsignals  innerhalb  des  ersten  Signalabschnitts  der  Lange.  1024 
gewonnen.  Das  zweite  Schwingungsmaximum  wird  jetzt,  ausgehend  vom  Zeitpunkt  ti, 
in  einem  Suchfenster  der  Breite  [ti  +  O.DTim  . .  +  l.lTmzj  wiederum  durch  Auswahl 

des  absoluten  Maximums  bestimmt  (Ereignis  E2  zum  Zeitpunkt  t2). 

Der  urspriingliche  Schatzwert  Tini  wird  durch  Tperi  =  <2  —  ersetzt  und  fiir 
die  Bestimmung  der  folgenden  Marke  zum  Zeitpunkt  <3  herangezogen,  usw. 

Bedingt  durch  die  Festlegung  der  Suchfenster-Grenzen  kann  dieser  Algorithmus  einer 
relativen  Periodendauer-Schwankung  von  maximal  10  Prozent  (von  einer  Schwingung 
zur  nachsten)  nach  oben  Oder  unten  folgen. 

MODIAS  erstellt  fiir  jede  Vokalaufzeichnung  einen  Ereignisvektor  E,  dessen  Spal- 
ten  mit  den  Einzelschwingungen  i  =  1...K  korrespondieren.  Jede  Spalte  beinhaltet 
dabei  den  detektierten  Beobachtungszeitpunkt  ti  des  jeweiligen  Ereignisses  bzw. 
Schwingungsmaximums: 


E  = 


t2 


(4.24) 


Die  Periodendauern  der  Einzelschwingungen  ergeben  sich  durch  Differenzbildung  zwi- 
echen  jeweils  zwei  aufeinanderfolgenden  Beobachtungszeitpunkten,  bzw.  Tpevi  =  — 

fiir  i  5=  1  1.  Damit  entsteht  aus  den  K~1  Periodendauern  ein  Vektor  Tper  gemafi 
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folgender  Beiechnungsweise: 


^  Tperi  ^ 

Tper  = 

Tper2 

= 

<3- <2 

(4.26) 

yTperK^i  y 

\tl<  -  tl<~l  J 

Dutch  eiiifaclte  KehrwertbilcUing  und  Multiplikation  mit  der  Abtastrate  F,  entsteht  ein 
Vektor  Froh,  der  den  Rohverlauf  der  Grundfrequenz  (Pitch)  samtlicher  Einzelschwin- 
gungen  rej?rfi!5entiert.  Er  wild  wie  folgt  gebildet:: 


Froh  = 


{  Frohi  ^ 
Froh2 

yFrohii-i  j 


=  F, 


1 

tz-ts 


(4.26) 


Dieser  Roh-Pitchverlauf  wird  nun  im  Rahmen  einer  statistischen  Verlaufsanalyse  einge- 
hender  betrachtet. 


Pitch-Verlaufsanalyse:  Wie  bereits  beschrieben,  werden  fiir  die  weitere  Bearbeitung  3 
Arten  der  Instabilitat  im  Pitchverlauf  definiert  bzw.  unterschieden,  das  sind  Pitch-Trend, 
Pitch- Variabilitdt  und  Jitter.  Eine  Veranschaulichung  hierzu  bietet  Abbildung  4.29. 


Pitch-V  ariabilitSl 


Abbildung  4.29.:  MODIAS  unterscheidet  3  verschiedene  Arten  von  Instabilitaten  im  Pit¬ 
chverlauf;  Pitch-Trend,  Pitch- Variabilitdt  und  Jitter. 

Hierzu  wird  der  Roh-Pitchverlauf  Froh  in  einem  ersten  Bearbeitungsschritt  nach  ei- 
nem  zweistufigen  Verfahren  geglattet  (Blockschaltbild  und  Dimensionierung  identisch 
zu  Abbildung  4.27  auf  Seite  86).  Nach  Glattung  liegt  der  Pitchverlauf  F  vor,  der  z.B. 
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uber  einer  rekonstruierten  Zeitachse  ftir  alle  realisierten  Vokale  wie  auf  den  MODIAS- 
Auswerteblattern  gem.  Abbildung  4.11  dargestelH  werden  kann. 

In  einem  zweiten  Schritt  wird  aus  dem  gewonnenen  geglatteten  Pitchverlauf  F  durch  li- 
neare  Regression  eine  Trendgerade  Fire  errechnet  (Verfahren  z.B.  in  {Bro79],  siehe  auch 
Abbildung  4.29). 

Durch  Normierung  auf  den  mittleren  Pitch  entsteht  der  Vektor  Ftre,  der  den  relativen 
Trend  des  Pitchverlaufs  beschreibt: 


Ftre  ■ 


Fire  =  100- 


1 


,  K-\ 

<S 


(4.27) 


Durch  Differenzbildung  und  Normierung  entsteht  ein  neuer  Vektor  Fvar^  der  die  relative 
(trendbereinigte)  Schwankung  des  (geglatteten)  Pitchverlaufs  urn  seinen  linearen  Trend 
beschreibt:  '  . 


^  Fvar\ 

/  Ft-Ftrei  \ 

Ftrei 

Fvar  = 

Fvar2 

=  100 

F's-Ftrei 

Ftre2 

,FvarK-ij 

[  PK-\-FtreK-\ 

(4.28) 


Im  dritten  und  letzten  Bearbeitungsschritt  wird  vom  Roh-Pitchverlauf  Froh  der  geglat- 
tete  Pitchverlauf  F  subtrahiert  und  auf  diesen  normiert.  Es  entsteht  der  Vektor  Fjit, 
der  die  relative  Schwankung  des  Roh-Pitchverlaufs  urn  den  (geglatteten)  Pitchverlauf 
beschreibt: 


Fjit  = 


^  Fjiti  ^ 

/  Frohi  -Fi  \ 

Fjit2 

=  100 

Froho-F-i 

Fj 

(4.29) 

. 

^PjitK-i  j 

FTOhK-\-FK-l 

\  fk-1  y 

Die  beiden  Verlaufe  Fvar  und  Fjit  sind  jetzt  uber  das  statistische  Mafi  der  Standard- 
abweichung  parametrierbar.  MODIAS  stellt  die  folgenden  akustischen  Parameter  zur 
Verfvigung: 


•  JITTER:  Standardabweichung  des  normierten  Jitters  Fjiti.  Der  Parameter  be¬ 
schreibt  die  relative  Schwankung  des  Roh-Pitchverlaufs  urn  den  geglatteten  Pitch¬ 
verlauf  und  tragt  die  Dimension  Prozent. 
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•  PITCH-VARIABILITAT:  Standardabweichung  der  normierten  Pitch- Variabilitat 
Fvavi.  Der  Parameter  beschreibt  die  relative  Schwankung  des  geglatteten  Pitch- 
verlaufes  um  seinen  lineareii  TVend  und  tragt  die  Dimension  Prozent. 

•  PITCH-TREND:  Steigung  der  auf  den  mittleren  Pitch  normierten  Trendgeraden 
Five.  Der  Parameter  beschreibt  den  relativen  linearen  Abfall/Anstieg  des  Pitch- 
verlaufs  und  tragt  die  Dimension  Prozent  pro  Sekunde. 


4. 3. 2. 2.  Bestimmung  des  Lautheitsverlaufs  und  dessen  Parametrierung 

Wfilirend  sich  die  vorangegangenen  Betrachtungen  vorwiegend  auf  die  zeitlichen  Aspekte 
der  Stimmbandschwingung  bzw.  deren  Periodendauer  konzentrierten,  liegt  in  diesem 
Abschnitt  der  Schwerpunkt  auf  der  Betrachtung  der  phonatorischen  Intensitat  dieser 
Schwingungen,  also  ihrer  Amplitude.  Hier  ware  prinzipiell  ein  analoges  Verfahren 
moglich,  da  der  beschiebene  Pitch-Tracking-Algorithmus  bereits  die  relevanten  Schwin- 
gungsmaxima  im  Oszillogramm  detektiert  und  hier  anstelle  ihrer  zeitlichen  Lagen  nur  die 
entsprechenden  Amplituden  auszuwerten  wiiren.  Die  schnellen  Variationen  der  Intensi- 
tJit,  in  Analogic  zum  (Pitch-)Jitter  iiblicherweise  als  (Amplituden-)Shimmer  bezeichnet, 
liefern  gem.  einschlagiger  Literatur  Cine  diagnostische  Aussage,  die  sehr  stark  mit  der 
des  Jitters  korreliert,  also  einer  perzeptiv  empfundenen  Stimmrauhigkeit.  Aufgrund 
dieser  Informationsredundanz.  wurde  auf  die  Ermittlung  des  Shimmers  verzichtet. 

Damit  entfallt  hier  letztlich  der  hohe  Anspruch  eines  Ereignisdetektionsverfahrens, 
da  nicht  mehr  die  Amplitude  jeder  Einzelschwingung  bestimmt  werden  mufi.  Bei  der 
MODIAS-Realisierung  wurde  daher  fiir  die  weitere  Betrachtung  als  Intensitatsmafi  die 
EmpfindungsgroiSe  der  (psychoakustischen)  Lautheit  herangezogen.  Sie  wird  durch  ein 
Kurzzeit-Analyseverfahren  gewonnen  und  beriicksichtigt  auch  die  psychoakustischen 
Effekte  der  Sprachwahrnehmung. 

Die  komplexe  Berechnung  der  zeitlichen  Lautheitsverlaufe  ist  in  5.3.1  auf  den  Seiten 
142  ff.  im  Detail  dargestellt  und  wird  hier  nicht  weiter  ausgefiihrt.  Die  Verlaufe  werden 
dem  Untersucher  im  vorliegenden  Modul  STIMME  UND  VOKALARTIKULATION 
im  Laufe  des  Untersuchungsprotokolls  als  Hilfmittel  bei  der  Segmentierung  geeigneter 
Signalabschnitte  grafisch  dargeboten  (siehe  Abbildung  4.7  auf  Seite  54). 
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Folgende  Storungsmuster  sind  im  Veilauf  der  Lautheit  diagnostisch  relevant  und 
waren  daher  bei  der  Realisierung  entsprechend  zu  beriicksichtigen: 

•  Die  Lautheit  kann  wahrend  der  Vokalisation  einem  Auf-  oder  Abwartstrend  unter- 
liegen  (Im  Folgenden  als  Lautheits-Trend  bezeichnet). 

•  Die  Lautheit  kann  durch  Stonmgen  der  Sprechatmung  zeitlichen  Schwankungen 
unterliegen  (Im  Folgenden  als  Lautheits-Variabilitdt  bezeichnet). 

Wie  schon  bei  der  Analyse  des  Pitchverlaufs  bedeutet  dies  auch  hier,  dafi  die  beiden 
vorgestellten  GroKen  moglichst  voneinander  unabhangig  reproduzierbar  sein  sollen. 


Parametrlsche  Reprasentation  des  Lauthettsverlaufs:  Der  Lautheitsverlauf  entsteht, 
wie  bereits  erwahnt,  durch  ein  Kurzzeit-Analyseverfahren.  Hierzu  wird  das  in  zeitdis- 
kreter  Form  vorliegende  Sprachsignal  s(n)  im  Rahmen  der  Vorverarbeitung  in  zeitlich 
iiberlappende  Signalsegmente  zu  je  512  Samples  segmentiert.  Pro  Segment  entsteht  da- 
mit  jeweils  1  diskreter  Lautheitswert.  Die  Oberlappung  wurde  derart  gewahlt,  dafi  in 
einem  festen  Zeitraster  von  10  ms  neue  Segmente  beginnen  bzw.  Lautheitswerte  entste- 
hen. 

MODIAS  erstellt  somit  fiir  jede  Vokalaufzeichmmg  einen  Vektor  Nroh,  dessen  Spalten 
mit  den  Segmenten  i  =  1 ...  AT  korrespondieren.  Er  reprasentiert  den  (Roh-) Verlauf  der 
Lautheit  aller  K  Segmente: 


Nroh  = 


(  Nrohi  \ 
Nroh2 


(4.30) 


\NrohK  J 


Dieser  Roh-Lautheitsverlauf  wird  nun  beztiglich  seiner  zeitlichen  Variabilitat  eingehender 
betrachtet. 


Lautheits-Verlaufsanalyse:  Wie  bereits  beschrieben,  werden  fiir  die  weitere  Bearbei- 
tung  nur  2  Arten  der  Instabilitat  im  Lautheitsverlauf  definiert  bzw.  unterschieden,  das 
sind  Lautheits-Trend  und  Lautheits- Variabilitat.  Eine  Veranschaulichung  hierzu  bietet 
Abbildung  4.30. 
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L*uth*it#.V  MkUlilSl 

Abbildung  4.30.:  MODI  AS  unterscheidet  2  verschiedene  Arten  von  Instabilitaten  im 
Lautheitsverlauf:  Lautkeits-TYend  und  Lautheits-Variabilitat. 

Hierzu  wird  der  Roh-Lautheitsverlauf  Nroh  in  einem  ersten  Bearbeitungsschritt  nach 
einem  zweistufigen  Verfahren  geglattet  (Blockschaltbild  und  Dimensionierung  identisch 
zu  Abbildung  4.27  auf  Seite  86).  Nach  Glattung  liegt  der  Lautheitsverlauf  N  vor  (Dar- 
stellung  des  Lautheitsverlaufs  N  iiber  einer  rekonstruierten  Zeitachse  fiir  alle  realisierten 
Vokale  innerhalb  der  MODIAS-Segmentierungsoberflache  gem.  Abbildung  4.7.). 

In  einem  zweiten  Schritt  wird  aus  dem  gewonnenen  (geglatteten)  Lautheitsverlauf  N 
durch  lineare  Regression  eine  Trendgerade  Ntre  errechnet  (Verfahren  z.B.  in  [Bro79), 
eiehe  auch  Abbildung  4.30). 

Durch  Normierung  auf  die  mittlere  Lautheit  entsteht  der  Vektor  Ntre,  der  den  relativen 
Trend  des  Lautheitsverlaufs  beschreibt; 

^ire  -i'ZNi 

Ntre  =  100 - .  (4.31) 

Durch  Differenzbildung  und  Normierung  entsteht  ein  neuer  Vektor  Nvar,  der  die  relati¬ 
ve  (trendbereinigte)  Schwankung  des  (geglatteten)  Lautheitsverlaufs  um  seinen  linearen 
Trend  beschreibt;  i  . 

/  Nvar\ 

Nvar  2 

Nvar  =~ 

^Nvarji 

Der  Verlauf  Nvar  ist  jetzt  iiber  das  etatistische  MaR  der  Standardabweichung  parame- 
trierbar.  MODIAS  stellt  die  folgenden  akustischen  Parameter  zur  Verfiigung; 


4.3.  Techniscbe  RenUsierung:  Entwickelte  Verfahren  und  AJgorithmen 


•  LAUTHEITS-VARIABILITAT:  Standardabweichung  der  normierten  Lautheits- 
Variabilitalt  Nvari.  Der  Parameter  beschreibt  die  relative  Schwankung  des  Laut- 
heitsverlaufes  um  seinen  linearen  Trend  und  trSgt  die  Dimension  Prozent. 

•  LAUTHEITS-TREND:  Steigung  der  auf  die  mittlere  Lautheit  normierten  Trend- 
geraden  Ntre.  Der  Parameter  beschreibt  den  relativen  linearen  Abfall/Anstieg  des 
Lautheitsverlaufs  und  tragt  die  Dimension  Prozent 

4. 3. 2. 3.  Bestlmmung  des  CPPS-Verlaufs  und  dessen  Parametrlerung 

Im  Rahmen  friiherer  Arbeiten  haben  sich  zur  akustischen  Pradiktion  perzeptiver  Be- 
hauchtheitsratings  drei  verschiedene  Charakteristika  des  Sprachsignales  als  wesentlich 
herausgestellt  ([Hil96]): 

•  Relative  Amplitude  der  ersten  Harmonischen  im  Fourier-Leistungsdichtespektrum 
(das  ist  die  charakteristische  Spektrallinie  bei  der  Stimmbandgrundfrequenz), 

•  Grad  der  Periodizitat  des  zeitlichen  Sprachsignales, 

•  Spectral  Tilt  (Abfall  des  Fourier-Leistungsdichtespektrums  zu  hohen  Frequenzen). 

Eine  1996  von  HILLENBRAND  und  HOUDE  durchgefiihrte  Untersuchung  an  20 
pathologischen  und  5  gesuiiden  Sprechern  vergleicht  mehrere  diesbezugliche  Verfahren 
in  der  Korrelation  mit  perzeptiven  Daten  bei  gehaltenen  Vokalen.  Dabei  konnte  eine 
deutliche  Uberlegenheit  des  komplexen  CPPS-Parameters  (Abkurzung  fiir  Cepstral  Peak 
Prominence  Smoothed)  gezeigt  werden  bei  einer  Korrelation  von  iiber  96  Prozent  mit 
den  perzeptiven  Ratings  geschulter  Horer  ([Hil96]).  Zusatzlich  bietet  diese  Methode 
den  Vorteil,  ohne  Bedienerinteraktion  oder  parallele  Algorithmenkontrolle  sehr  stabile 
Ergebnisse  zu  liefern  -  ein  besonders  wesentlicher  Gesichtspunkt  im  Rahmen  der 
beschriebenen  MODIAS-Realisierung. 

In  der  entsprechenden  Untersuchung  gem.  [Hil96]  konnte  der  CPPS-Parameter  nur  fur 
ausgewahlte,  handsegmentierte  und  vermeintlich  reprasentative  Signalabschnitte  kurzer 
Dauer  ermittelt  werden. 

Bei  der  Realisierung  des  beschriebenen  MODIAS-Moduls  wurde  eine  automatische 
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Berechnung  dieses  CPPS-Parameters  (100  Werte  pro  Sekunde)  ohne  manuelle  Inter- 
aktioii  iinplementiert.  Der  Untersucher  hat  somit  die  Mdglichkeit,  auch  den  zeitlichen 
CPPS-Verlauf  tiber  die  Dauer  der  Vokalproduktion  hinweg  zu  beobachten. 

HILLENBRAND  und  HOUDE  berlchten  aufgrund  ihrer  experimentellen  Validie- 
rung  nur  von  der  hohen  Korrelation  zwischen  CPPS  und  perzeptiver  Behauchtheit, 
auRern  hingegen  aber  auch  die  Vermutung,  dafi  sich  dieser  Parameter  ebenfalls  zur 
akustischen  Pradiktion  der  perzeptiven  Rauhigkeit  eignen  konnte.  Die  im  Rahmen  der 
MODIAS-Realisierung  vorgestellte  Dberprtifung  anhand  eines  speziell  zusammengestell- 
ten  synthetischen  Sprachmaterials  stiitzt  diese  Einschatzung. 


Besondere  Eigenschaften  des  Cepstrums:  Der  zu  Grunde  liegende  Algorithmus  zur 
Berechnung  der  CPPS  bedient  sich  der  homomorphen  Analyse  durch  Berechnung  des 
Cepstrums  (z.B.  besclnieben  in  [Hes83]).  Das  Cepstrum  (der  BegrifF  Cepstrum  ist  eine 
Wortschopfung  durch  Umkehrung  der  ersten  Silbe  des  Wortes  Spectrum)  ist  eine  dem 
Fourier-Spektrum  Rhnliche  Signalreprasentation. 

Das  herkommliche  Fourier-Spektrum,  bzw.  genauer  die  komplexe,  spektrale  Am- 
plitudendichte  S{e^^)  eines  periodischen  Zeitsignals  s(f)  entsteht  durch  die  in  Abbildung 
4.31  dargestellte  signalverarbeitende  Struktur,  Zunachst  wird  ein  geeigneter  Signalaus- 
schnitt  durch  Multiplikation  mit  einem  Fenster  extrahiert,  der  dann  der  eigentlichen 
Fourier-Transformation  (Fourier-Operator  FFT{})  unterzogen  wird. 


Window 


Abbildung  4.31.;  Signalverarbeitende  Struktur  zur  Berechnung  des  Fourier-Spektrums. 

Die  Analyse/Interpretation  des  Signales  s(t)  erfolgt  hier  anhand  der 
Eigenschaften  der  spektralen  Signalreprasentation. 


Die  abschlieRende  Logarithmierung  (Logarithmus-Operator  LOG{})  dient  unter  ande- 


4.3.  Techniscbe  ReaUsierung:  Entwickelte  Verfahren  und  Algorithmen 
rem  der  praktikablen  Skalierung  des  resultierenden  Spektrums. 

Fiir  die  weitere  Betrachtung  wird  nochmals  das  Quelle-Filter-Modell  gem.  Abbil- 
dung  4.17  herangezogen.  Das  Sprachsignal  s(t)  entsteht  nach  diesem  Modell  aus  dem 
Anregungssignal  e(t)  durch  Passieren  des  Vokaltraktfilters  und  damit  durch  Faltung 
(Operator  ®)  mit  dessen  Impulsantwort  hvok{t)- 

sit)  =  e{t)  0  h^okit)  (4.33) 

Das  bedeutet,  daK  durch  Anwendung  der  Struktur  gem.  Abbildung  4.31  das  korrespon- 
dierende  Fourier-Spektrum  Sie^^^)  sich  auch  als  Produkt  darstellen  laftt: ' 

Siej'^)  =  Eie’'^)  •  Hie^^)  (4.34) 

Die  Anwendung  des  Logarithmus-Operators  LOG{}  zeigt  hier  einen  zweiten  Vorteil, 
namlich  die  Umwandlung  eines  Produkts  in  eine  Summe  und  damit  eine  leichte  TVenn- 
barkeit  der  beiden  Einzel-Fourier-Spektren  von  originarer  Anregung  (hier:  Stimme)  und 
Filterwirkung  (hier:  Artikulation): 

LOG{S{e^^)}  =  LOG{E{e^^)  •  =  LOG{Eie^^)}  +  LOG{H{e^‘^)}  (4.35) 

Ein  typisches  (logarithmiertes)  Vokal-Spektrum  ist  in  Abbildung  4.32  dargestellt.  Das 
periodische  Anregungssignal  e(i)  korrespondiert  mit  periodisch  wiederkehrenden  Spek- 
trallinien  (harmonische  Vielfache  der  Stimmbandgrundfrequenz  F  bzw.  Pitch)  und  somit 
einem  diskreten  Linienspektrum  (Feinstruktur),  die  Impulsantwort  des  Vokaltraktfilters 
mit  einem  additiv  verknupften,  kontinuierlichen  Spektrum  (Grobstruktur). 

Das  Cepstrum  s(t)  eines  periodischen  Zeitsignals  s{t)  entsteht  demgegeniiber  durch  die 
in  Abbildung  4.33  dargestellte  Struktur.  Wie  zuvor  wlrd  ein  geeigneter  Signal ausschnitt 
durch  Anwendung  eines  Fensters  extrahiert,  der  sowohl  einer  Fourier- Transformation  als 
auch  einer  Logarithmierung  unterzogen  wird. 

AnschlieRend  erfolgt  hier  jedoch  die  Fourier-Riicktransformation  des  logarithmier- 
ten  Spektrums  (Inverser  Fourier-Operator  IFFT{}).  Durch  die  dazwischenliegende 
Logarithmus-Operation  ist  das  resultierende  Cepstrum  nicht  mehr  eine  Funktion  der 
Zeit,  sondern  der  neuen  Variablen  Quefrency  (der  Begrifif  Quefrency  ist  eine  Wortschop- 
fung  durch  eine  Silbenumstellung  des  Wortes  Frequency). 

Durch  Anwendung  der  Gleichung  4.35,  sowie  des  Superpositionssatzes  der  Fourier- 
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Abblldung  4.32.;  Typisches,  logarlthmiertes  Founer-Spektrum  eines  Vokals.  Es  setzt  sich 
additiv  aus  einem  Linienspektrum  (EinfluIJ  der  periodischeii  Stimmban- 
danregung)  und  einem  kontinuierlichem  Spektrum  (Einflufi  des  Vokal- 
traktfilters)  zusammen. 

Tr  ansformation  laRt  sich  dieser  Zusammenhang  wie  folgt  darstellen: 

_ *00 _ 

IFFT{LOG{S{e^^)}}  =  IFFT{LOG{E{e^^)}}+ IFFT{LOG{H{e^^)}  (4.36) 

e(r)  ft(T) 

Nach  Anwendung  des  Logarithmus-Operators  und  der  Fourier-Riicktransformation  ist  al¬ 
so  ein  Cepstrum  s{t)  entstanden.  Es  setzt  sich  additiv  aus  zwei  Einzelcepstren  zusammen, 
die  mit  der  Anregung  (hier:  e(T))  und  der  Filterwirkung  (hier:  h{r))  korrespondieren. 
Das  zum  Fourier-Spektrum  gem.  Abbildung  4.32  gehorende  Vokal- Cepstrum  ist  in  Ab- 
bildung  4.34  dargestellt. 

Das  periodische  Anregungssignal  (Stimme)  korrespondiert  mit  einer  einzigen  diskreten 
Cepstrallinie  bei  der  Quefrency  1/F  bzw,  dem  Kehrwert  der  Stimmbandgrundfrequenz 
(hier;  11ms).  Der  Einflufi  des  Vokaltraktes  (Artikulation)  ist  an  den  Rand  des  Cepstrums 
zu  niedrigen  Quefrencies  hin  gedrfingt. 

Diese  besondere  Eigenschaft  des  Cepstrums,  eine  solche  diskrete  Cepstrallinie  auszubil- 
den,  wird  bei  der  Ableitung  des  CPPS-Parameters  genutzt. 

Berechnung  des  CPPS-Verlaufs:  HILLENBRAND  und  HOUDE  haben  in  ihrer  Unter- 
suchung  gezeigt,  daR  die  Amplitude  dieser  dominanten  Komponente  s(Tp)  =  s(l/F)  so- 
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Window 


Abbildung  4.33.:  Signalverarbeitende  Struktur  zur  Berechnung  des  Cepstrums.  Die  Ana¬ 
lyse/Interpretation  des  Signales  s(t)  erfolgt  hier  anhand  der  Eigenschaf- 
ten  der  cepstralen  Signalreprasentation. 

wohl  von  der  momentanen  Signalleistung  als  auch  vom  Grad  der  Periodizitat  der  Stimm- 
bandschwingung  abhangt. 

Um  den  Einftufi  der  momentanen  Signalleistung  zu  eliminieren,  wird  gem.  ([Hil96])  ei- 
ne  Regressionsgerade  bzw.  ein  linearer  TVend  aus  dem  Cepstrum  im  Quefrency-Bereich 
T  =  33...  167  ms  errechnet.  Das  CPPS-Mafi  beschreibt  die  Amplitudendifferenz  in  dB, 
um  die  die  Cepstrallinie  ilber  diese  Regressionsgerade  bei  der  Quefrency  Tp  =  1/F  her- 
ausragt.  Dieser  Zusammenhang  ist  in  Abbildung  4.35  grafisch  dargestellt. 

Der  CPPS-Verlauf  erwachst  aus  der  Analyse  segmentweise  errechneter  Cepstren  gem. 
Abbildung  4.33.  Hierzu  wird  das  in  zeitdiskreter  Form  vorliegende  Sprachsignal  im  Rah- 
men  der  Vorverarbeitung  in  zeitlich  iiberlappende  Signalsegmente  zu  je  1024  Samples 
segmentiert,  pro  Segment  entsteht  damit  jeweils  1  diskreter  CPPS-Wert.  Die  Oberlap- 
pung  wurde  derart  gewahlt,  dalJ  in  einem  festen  Zeitraster  von  2  ms  neue  Segmente  be- 
ginnen  bzw.  CPPS-Werte  entstehen.  Als  Fenster  gem.  Abbildung  4.33  wird  in  [HiI96] 
eine  Hamming- Form  vorgeschlagen  (siehe  Abbildung  4.19),  ebenso  eine  Fast-Fourier- 
Transformation  bzw.  -Riicktransformation  der  Lange  1024. 

Die  Einzelcepstren  werden  vor  Extraktion  der  Amplitude  der  jeweils  dominanten  Cep¬ 
strallinie  in  zwei  Stufen  geglattet; 

•  Stufe  1:  Mittelung  iiber  die  Zeit.  In  Abstanden  von  10ms  wird  dabei  jeweils  ein 
vorgeglattetes  Cepstrum  des  Segmentes  i  durch  Mittelung  iiber  die  9  Cepstren  der 
Segmente  i  —  4. ,  .i  +  4  gebildet  (9-Frame-Cepstral-Time- Average). 
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Abbildung  4.34.:  Typisches  Cepstrum  eines  Vokals.  Es  setzt  sich  additiv  aus  dein  Cep- 
strum  des  Anregungssignals  (dominante  Cepstrallinie  beim  Kehrwert 
des  Pitchs  bzw.  Tp  =  1/F)  und  dem  Cepstrum  des  Vokaltraktfilters 
(Bereich  r  <<  Xp)  zusammen. 

•  Stufe  2:  Filterung  der  vorgeglatteten  Cepstren  durch  ein  3-Punkt-Running-Median- 
Filter. 


Nach  Glattung  und  Bxtraktion  stehen  also  CPPS-Werte  im  Abstand  von  10  ms  zur 
VerfOgung. 

MODIAS  erstellt  fiir  jede  Vokalaufzeichnung  einen  Vektor  Croh,  dessen  Spalten  mit  den 
Segmenten  i  —  1 . . ,  K  korrespondieren.  Er  reprasentiert  den  (Roh-)Verlauf  des  CPPS- 
Parameters  aller  K  Segmente: 


Croh  = 


(  Cro/iA 
Cro)xi 


\CrohK  j 


(4.37) 


Dieser  Roh-CPPS-Verlauf  wird  nun  bezugUch  seiner  zeitlichen  Variabilitat  eingehender 
betrachtet. 


Statistlsche  CPPS-Verlaufsanalyse:  Fiir  die  weitere  Bearbeitung  warden  2  Arten  der 
Instabilitat  im  CPPS-Verlauf  deflniert  bzw.  unterschieden,  das  ist  der  CPPS- Trend  und 


102 


4.3.  Technische  ReaUsievung:  Entwickelte  Verfabren  und  Algorithmen 


Cepsliiim 

(smoothed) 


3.3ins 
(1/300  Hz) 


1/F 


i  Cepstral  Peak 
I  Prominence  (CPP) 


'  RegressionsJinie 


16.7ra3 
(1/60  Hz) 


Quefrenoy 


Abbildung  4.35.:  Der  CPPS-Parameter  beschreibt  die  Differenz  zwischen  der  Amplitu¬ 
de  der  dominanten  Cepstrallinie  bei  der  Quefrency  Tp  =  1/F  und  der 
ermittelten  Regressionsgeraden  in  dB.  Diese  Art  der  Berechnung  elimi- 
niert  den  Einfiu^  der  momentanen  Signalleistung. 


Abbildung  4,36.:  MODIAS  unterscheidet  2  verschiedene  Arten  von  Instabilitaten  im 
CPPS-Verlauf:  CPPS-Trend  und  CPPS-Variabilitat. 


die  CPPS-Variabilitdt.  Eine  grafische  Veranschaulichung  hierzu  bietet  Abbildung  4.36. 
Der  Roh-CPPS-Verlauf  Croh  wird  in  einem  ersten  Bearbeitungsschritt  nach  einem 
zweistufigen  Verfahren  geglattet  (Blockschaltbild  und  Dimensionierung  identisch  zu 
Abbildung  4.27  auf  Seite  86).  Nach  Glattung  liegt  der  CPPS-Verlauf  C  vor  (Darstellung 
des  CPPS-Verlaufs  C  iiber  einer  rekonstruierten  Zeitachse  fiir  alle  realisierten  Vokale 
auf  den  MODIAS-Auswerteblattern  gem.  Abbildung  4.12). 

In  einem  zweiten  Schritt  wird  aus  dem  gewonnenen  (geglatteten)  CPPS-Verlauf  C  durch 
lineare  Regression  eine  Trendgerade  Ctre  errechnet  {Verfahren  z.B,  in  [Bro79]). 

Durch  Normierung  auf  die  mittlere  CPPS  entsteht  der  Vektor  Ctre,  der  den  rela- 
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4.  Realisierung  des  Moduls  STIMME  UND  VOKALARTIKULATION 
tiven  Tiend  des  CPPS-Verlaufs  beschreibt: 


Ctre  =  100- 


Ctre  ~  Ci 


t=i 


(4,38) 


Durch  Differenzbildung  und  Normierung  entsteht  ein  neuer  Vektor  Cvar,  der  die  relative 
(trendbereinigte)  Scliwankung  des  (geglatteten)  CPPS-Verlaufs  um  seinen  linearen  Trend 


beschreibt: 


\ 

^  Cvar  \  \ 

/  gl-CtrCj  \ 
Ctrei 

Cvar  = 

Cvar2 

=  100 

C^-Cireo 

Ctre2 

. 

^Cvarji  j 

CK-CirBK 
\  Ctreji  / 

(4.39) 


Der  Verlaiif  Cvar  ist  jetzt  uber  das  statistische  MaB  der  Standardabweichung  parame- 
trierbar,  MODIAS  stellt  die  folgenden  akustischen  Parameter  zur  Verfiigung; 


•  CPPS-VARIABILITAT:  Standardabweichung  der  normierten  CPPS-Variabilitat 
CvoTi.  Der  Parameter  beschreibt  die  relative  Scliwankung  des  CPPS-Verlaufes  um 
seinen  linearen  Tend  und  tragt  die  Dimension  Prozent. 

•  CPPS-TREND:  Steigung  der  auf  die  mittlere  CPPS  normierten  Tendgeraden 
Ctre.  Der  Parameter  beschreibt  den  relativen  linearen  Abfall/Anstieg  des  CPPS- 
Verlaufs  und  trSgt  die  Dimension  Prozent. 


4.4.  Validitatsprufung  der  Komponente  STIMME 


Das  Hauptziel  akustischer  Stimmanalysen  ist  es,  mit  moglichst  hoher  Giite  das  Urteil 
eines  geschulten  Experten  vorherzusagen  und  damit  einen  reproduzierbaren  und  objek- 
tiven  Zusammenhang  zwischen  akustischer  und  auditiver  Information  herzustellen.  Die 
statistische  Validitat  des  Modul-Anteils  STIMME  wurde  im  Rahmen  der  Enwicklung  in 
zwei  unabhHngigen  Schritten  eingehend  gepriift. 
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4.4.  VaJiditatspriifung  der  Komponente  STIMME 


4.4.1.  Validitat  der  gewahlten  Untersuchungsmethode 

In  diesem  Abschnitt  wird  zunachst  die  Wahl  der  Untersuchungsmethode  (isolierte  Vokale) 
begriindet.  Danach  wird  die  Fi-age  untersucht,  ob  prinzipiell  von  den  hieraus  gewonnenen 
Stimmparametern  auf  die  entsprechenden  Parameter  im  natiirlichen  Redefluft  geschlossen 
warden  darf.  Dabei  ist  zu  beriicksichtigen,  dafi  die  gewahite  Aufgabenstellung  isolierter 
Vokale  artifiziell  ist  und  einer  Fixierung  des  Kehlkopfs  iiber  einen  vergleichsweise  langen 
Zeitraum  bedarf.  Eine  derartige  Konfiguration  tritt  im  natiirlichen  RedefluB  grundsatz- 
lich  nicht  auf. 

Die  Entscheidung  fiir  die  gewahite  Aufgabenstellung  isolierter  Vokale  hatte  folgende 
Griinde: 

•  Die  Aufgabe  kann  auch  von  Patienten  mit  sehr  schweren  neurologischen  Storungen 
noch  hinreichend  erfiillt  werden. 

•  Pitch-TVacking-Algorithmen  arbeiten  hier  in  der  Regel  wesentlich  stabiler  als  im 
natiirlichen  RedefluB. 

•  Es  ist  keine  Segmentierung  von  Vokalabschnitten  erforderlich,  daher  kann  auf  eine 
stimmhaft/stimmlos-Detektion  verzichtet  werden. 

•  Einige  Storungsmerkmale  sind  bei  isolierten  Vokalen  besser  detektierbar. 

Das  letztgenannte  Argument  wurde  an  der  Einzelfallstudie  eines  Patienten  mit  spas- 
modischer  Dysphonie  iiberpriift.  Im  normalen  Redeflufi  war  bei  diesem  Patienten 
lediglich  eine  schwere  Stimmstorung  feststellbar,  nicht  aber  naher  spezifizierbar.  Erst 
bei  isoliert  gesprochenen  Vokalen  fiel  sofort  ein  starker  Stimmtremor  (siehe  erganzend 
Seite  2.2.1)  als  Storungsursache  auf.  Abbildung  4.37  zeigt  den  mit  MODIAS  bestimmten 
Pitch- Verlauf  mit  seinen  auffallig  periodischen  Schwankungen  infolge  des  Stimmtremors. 
Bei  diesem  Storungsbild  erwies  sich  der  MODIAS-spezifische  Parameter  der  PITCH- 
VARIABILITAT  als  besonders  sensitiv,  der  um  den  Faktor  10  iiber  den  entsprechenden 
Werten  sprechgesunder  Probanden  lag. 

Zur  Klarung  der  Frage,  ob  die  aus  isoliert  gesprochenen  Vokalen  gewonnenen 
Stimmparameter  auch  valide  sind,  wurde  auf  ein  umfangreiches  Datenmaterial 
der  Entwicklungsgruppe  klinische  Neuropsychologie  des  Stadtischen  Krankenhauses 
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4.  Realisierung  des  Moduls  STIMME  UND  VOKALARTIKULATION 


Abbildung  4,37.:  Pitch- Verlauf  bei  einem  Patienten  mit  schwerem  Stimmtremor.  Diese 
Storung  tritt  bei  isolierten  Vokalen  wesentlich  besser  hervor  als  bei  ein- 
gebetteten  Vokalen  im  natiirlichen  Redeflufi. 

Miinchen-Bogehhausen  zuriickgegriffen.  Eine  friihere  Pilotetudie  im  Rahmen  eines 
Forschungsprojekts  beinhaltete  iinter  anderem  die  akustisch-phonetische  Untersuchung 
von  110  Patienten  mit  neurogenen  Stimmstorungen  und  30  sprechgesunden  Probanden. 

Abbildung  4.38  zeigt,  wie  die  Messungen  des  mittleren  Pitch  bei  isolierten  Vo¬ 
kalen  mit  den  Messungen  bei  Vokalen  zusanimenhangen,  die  in  einen  Tragersatz 
eingebettet  sind. 


Abbildung  4.38.;  Zusainmenhang  zwischen  Messungen  des  mittleren  Pitch  an  isolierten 
Vokalen  (Abszisse)  und  Messungen  an  Vokalen,  die  in  einen  Tragersatz 
eingebettet  sind  (Ordinate).  Die  Korrelation  ist  sehr  hoch,  die  Pitch- 
Messungen  liegen  bei  isolierten  Vokalen  insgesamt  etwas  hoher. 
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4.4.  Vahditatspriifung  der  Komponente  STIMME 


Die  Korrelation  ist  ausgesprochen  hoch.  Pitch-Mefiwerte  fur  isoliert  gesprochene  Vokale 
zeigen  insgesamt  zwar  geringfiigig  hohere  Werte,  sie  schatzen  jedoch  hinreichend  gut  die 
korrespondierenden  MelSwerte  fiir  den  natui'lichen  Redeflufi. 

Abbildung  4.39  zeigt,  wie  gut  die  perzeptiven  Ratings  von  Horern  durch  solche 
Messungen  des  mittleren  Pitch  vorhergesagt  werden  konnen.  Jeder  Patient  wurde  von 
5  Horern  bewertet,  ob  seine  Sprechstimmlage  als  zu  hoch  (auf  einer  Skala  von  0  bis 
+6)  Oder  zu  niedrig  (auf  einer  Skala  von  0  bis  -6)  empfunden  wird.  Die  Pitch-Mefiwerte 
wurden  aus  isolierten  Vokalen  abgeleitet  (Abszisse),  die  perzeptiven  Ratings  hingegen 
aus  dem  naturlichen  RedefluB  des  Patienten  (Ordinate). 


Abbildung  4.39.:  Zusammenhang  zwischen  Messungen  des  mittleren  Pitch  an  isolierten 
Vokalen  (Abszisse)  und  perzeptiven  Horer-Ratings  anhand  des  naturli¬ 
chen  Redeflusses  (Ordinate),  getrennt  nach  weiblichen  und  mannlichen 
Patienten. 


Die  Korrelation  zwischen  akustischer  Messung  und  perzeptivem  Rating  ist  relativ  hoch 
(55  bzw.  34  Prozent),  gemessen  an  den  tiblicherweise  zu  erzielenden  Korrelationen 
derartiger  Experlmente.  Sie  ist  nur  unwesentlich  niedriger  als  bel  der  vergleichbaren 
Pradiktion  aus  den  MeBwerten  der  naturlichen  Sprache.  Pitch-Mefiwerte  aus  isolierten 
Vokalen  schatzen  daher  hinreichend  gut  perzeptive  Horerurteile  beziiglich  der  wahrge- 
nommenen  Sprechstimmlage. 
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4.  Realisienwg  des  Moduls  STIMME  UNO  VOKALARTIKULATION 


4,4.2.  ValiditSt  der  Rauhigkelts-  und  Bahauchtheitspradlktlon 

Ob  die  avisierte  Pradiktion  der  Rauhigkeit  durch  den  von  MODIAS  bereitgestellten  Para¬ 
meter  JITTER  gem.  Definition  in  4. 3. 2.1  auf  Seite  93,  und  die  Pradiktion  der  Behaucht- 
heit  durch  den  Parameter  CPPS  gem.  Definition  in  4. 3.2.3  auf  Seite  104  mit  hinreichender 
Sicherheit  gelingt  und  damit  von  etatistischer  Validitat  im  psychometrischen  Sinne  aus- 
gegangen  warden  kann,  muiS  im  Experiment  iiberpriift  warden. 

Prinzipiell  ist  eine  solclie  Priifung  durch  Expertenurteile  unter  Zuhilfenalime  von  Schatz- 
skalen  moglich,  die  aber  zum  einen  eine  hinreichend  grolJe  Anzahl  pathologischer  Stimm- 
bilder  erfordeit  und  zum  anderen  einer  zeitintensiven  auditiven  Befundung  bedarf. 

Eijie  alternative  und  iibliche  Methode  zur  Priifung  der  Pradiktionsleistung  bietet  sich 
durch  synthetisches  Stimmaterial,  da  hier  die  Stimmstdrung  modelliert  und  damit  im 
Grad  ihrer  Auspragung  frei  gewahlt  warden  kann.  Diese  Methode  wurde  fiir  MODIAS 
zur  Priifung  der  Validitat  herangezogen. 


4.4.2. 1.  Erzeugung  synthetischer  Stimmen 

Die  Modellierung  des  menschlichen  Vokaltraktes  wurde  bereits  bei  den  Verfahren  zur  Prii- 
fung  des  Artikulationsraumes  liinreichend  beschrieben.  Hierbei  wurde  das  aufgezeichnete 
Sprachsignal  einer  LPC-Analyse  unterzogen,  um  die  Modellparameter  des  Vokaltrakt fil¬ 
ters  bzw.  des  entsprechenden  Digitalen  Filters  zu  gewinnen. 

Das  Sprachsignal  war  bei  dieser  Modellierung  genau  dann  exakt  reproduzierbar,  wenn 
das  Pradiktionsfehlersignal  als  Anregungssignal  der  Stimmbander  verwendet  wurde.  Das 
Stimmband-Anregungssignal  enthalt  aber  trotz  seiner  vermeintlich  rauschartigen  Cha- 
rakteristik  all  diejenigen  sprecherspezifischen  Merkmale,  die  die  Informationen  iiber  den 
typischen  Klang  einer  Stimme  und  ggf.  auch  ihrer  Pathologic  enthalten.  Sobald  das  PrS,- 
diktionsfehlersignal  durch  ein  analytisches  Signal  ersetzt  wird,  wird  das  resultierende 
Sprachsignal  daher  perzeptiv  als  kiinstlich  wahrgenommen  mit  einem  typisch  maschi- 
nenartigen  Klangbild. 

Im  einfachsten  Falle  erfolgt  diese  Modellierung  durch  einen  Diracpuls  mit  einer  dem  mitt- 
leren  Pitch  entsprechenden  Prequenz.  Ein  wesentlich  besserer  Horeindruck  entsteht  jedoch 
z.B.  durch  Simulation  des  Stimmband-Grundimpulses  mit  dem  haufig  in  der  Sprachver- 
arbeitung  genutzten  Anregungsmodell  nach  ROSENBERG  gem.  Abbildung  4.40. 
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Abbildung  4.40.:  Simuliertes  Anregungssignal  bei  Verwendung  des  ROSENBERG- 
Modells.  Das  nach  inverser  Filterung  eines  menschlichen  Sprachsignales 
verbleibende  Anregungssignal  wird  entfernt  und  durch  dieses  syntheti- 
sche  Anregungssignal  ersetzt. 


Der  Stimmband-Grundimpuls  G{t)  des  Rosenberg- Mo  dells  ist  wie  folgt  definiert; 


r  1000- 

;  0  <  <  <  Tp 

(  1000- 

1  - 

:  Tp<t<Tp+Tn 

(4.40) 

1  0 

•  '^p  "b  I'm  <  ^  <  '^gea 

Die  Konstanten  Tp  und  r„  definieren  dabei  die  relativen  zeitlichen  Anteile  der  steigenden 
bzw.  fallenden  Flanke  eines  Grundimpulses,  bezogen  auf  seine  Gesamtdauer  Tges  mit  der 
hier  gewahlten  Dimensionierung: 

Tp  =  0A0-Tge,  Tn  =  0.16 -Tpe,  (4.41) 

Die  Frequenz  des  Stimmband-Pulses  (simulierter  Pitch)  ergibt  sich  zu  F  =  I /Tges- 


4.4. 2. 2.  Simulation  der  perzeptiven  Rauhigkeit 

Die  Simulation  einer  perzeptiv  wahrnehmbaren  Rauhigkeit  erfolgt  hier  durch  eine  Fre- 
quenzmodulation  des  Rosenberg-Stimmband-Pulses.  Die  Korrelation  der  simulierten 
Stimmstorungen  mit  perzeptiven  Rauhigkeits- Ratings  geschulter  Hdrer  wurde  im  Rali- 
men  einer  Untersuchung  an  der  Entwicklungsgruppe  klinische  Neuropsychologie  zuvor 
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gepriift  und  bestatigt. 

Die  Frequenzmodulation  erfolgt  hier  mit  einer  Rauschquelle,  die  eine  innerhalb 
[-Rmaa;  •  •  • -Rmoi]  gleichverteilte  Rauschamplitude  R  besitzt.  Als  indirektes  Mafi  fur  den 
Modulationsgrad  wurde  ein  Parameter  RJ  gem.  einer  Definition  in  [Scb95])  verwendet, 
Br  ist  fiir  periodische  Signale  bei  N  zeitHch  aufeinanderfolgenden  Einzelschwingungen 
wie  folgt  definiert: 


N 


RJ^Y. 

i=1 


l-'gt 

{N-l)‘X 


(4.42) 


Dabei  ist  xi  die  Periodendauer  der  f-ten  Schwingung. 

Das  resultierende  Oszillograinm  fiir  RJ  =  0.05  (Beispiel)  ist  in  Abbildung  4.41  darge- 
stellt, 


Abbildung  4.41.:  Oszillogramm  des  simulierten  Anregungssignales  bei  FVequenzmodula- 
tion  des  Rosenberg-Stimmband-Pulses  (hier:  RJ  =  0.05). 


4. 4. 2. 3.  Simulation  der  perzeptiven  Behauchtheit 

Die  Simulation  einer  perzeptiv  wahrnelimbaren  Behauchtheit  erfolgt  durch  Beaufschla- 
gung  des  Anregungssignales  mit  additivem,  gleichverteiltem  Rauschen.  Die  Korrelation 
der  simulierten  Stimmstdrungen  mit  perzeptiven  Behauchtheits-Ratings  geschulter  Hdrer 
wurde  im  Rahmen  einer  Untersuchung  an  der  Entwicklungsgruppe  klinische  Neuropsy- 
chologie  zuvor  gepriift  und  bestatigt. 
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) 

Die  Nutz-Signalleistung  Si^utz  des  ungestorten  (synthetisciien)  Anregungssignales  ergibt 
sich  durch  Integration  des  Rosenberg-Grundimpulses  G{i)  iiber  eine  Signalperiode  Tges- 

1 

^Nutz  —  Sro3  =  •  /  G{t)^dt  {4-43) 

■^ges  Jt=0 

Die  Stbr-Signalleistung  Sstor  einer  Rauschquelle,  die  eine  innerhalb  [— Rma®  •  •  •  Rmax] 
gleichverteilte  Rauschamplitude  R  besitzt,  ergibt  sich  nach  dem  bekannten  Zusammen- 
hang  zu: 

t>2 

Sstor  =  -g-  (4.44) 

Die  Signalleistung  des  Rosenberg-Pulses  gem.  Gleichung  4.43  ist  konstant,  damit  stellt 
sich  in  Abhangigkeit  der  frei  wahlbaren  Rauschamplitude  R  ein  (logarithmiertes)  Signal- 
Storleistungsverhaltnis  S/N  ein  von: 

S/N  =  10  -  log  =  10  •  log  (4.45) 

Die  Rauschamplitude  R  wurde  derart  gewahlt,  daft  sich  ein  jeweils  definiertes  Signal- 
Storleistungsverhaltnis  S/N  in  10-dB-Schritten  von  — 60(iR  . . .  20dS  einstellt. 

Das  resultierende  Oszillogramm  fiir  S/N  =  30dB  (Beispiel)  ist  in  Abbildung  4.42  darge- 
stellt. 


Abbildung  4.42.;  Oszillogramm  des  simulierten  Anregungssignales  bei  Beaufschlagung 
mit  additivem,  gleichverteiltem  Rauschen  (hier:  S/N  —  30dB). 
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4.  ReaJisierung  des  Moduls  STIMME  UND  VOKALARTIKULATION 


4. 4. 2. 4.  Ergebnis:  Korrelation  mit  den  abgelelteten  akustischen  Parametern 

Rauhigkeit:  Das  synthetische  Sprachmaterial  wurde  zur  Priifung  des  MODIAS- 
Rauhlgkeitsmafies  JITTER  mit  schrittweise  ansteigendem  RJ  (gem.  Gleichung  4.42) 
beaufechlagt.  Untersucht  wurde  hier  die  korrekte  Reihung  der  Stimmproben  gemcift 
ihrer  simulierten  Rauhigkeit  RJ  anhand  der  Ergebnisse  der  MODIAS-Stimmanalyse 
{JITTER). 

Die  Ergebnisse  sind  in  Abbildung  4.43  dargestellt. 


Abbildung  4.43.;  Zusammenhang  zwischen  dem  MODIAS-Rauhigkeitsmai?  JITTER  (Or¬ 
dinate)  und  der  simulierten  Frequenzmodulation  mit  steigendem  RJ 
(nach  Gleichung  4.42).  Die  Kurvenschar  ergibt  sich  durch  zusatzliche 
Variation  der  simulierten  Rauschstorung  bei  verschiedengradigem  S/N 
(nach  Gleichung  4.45). 

Das  MODIAS-Mafi  JITTER  korreliert  mit  der  simulierten  Rauhigkeit  und  liefert  eine 
korrekte  Reihung  der  Stimmproben  entsprechend  dem  eingestellten  Storungsgrad. 

Behauchtheit:  Das  synthetische  Sprachmaterial  wurde  zur  Priifung  des  MODIAS- 
Behauchtheitsmafies  CPPS  mit  schrittweise  ansteigendem  S/N  (gem.  Gleichung  4.45) 
beaufschlagt.  Untersucht  wurde  hier  die  korrekte  Reihung  der  Stimmproben  gemafi  ih¬ 
rer  simulierten  Behauchtheit  S/N  anhand  der  Ergebnisse  der  MODIAS-Stimmanalyse 
{CPPS).  Die  Ergebnisse  sind  in  Abbildung  4.44  dargestellt. 


112 


4.5.  A/ivrendui]geii  und  Ergebnisse 


Abbildung  4,44.:  Zusammenhang  zwischen  dem  MODIAS-BehauchtheitsmaR  CPPS  (Or¬ 
dinate)  und  der  simulierten  Rauschstorung  steigender  Rauschamplitude 
(d.h.  fallendes  S/N  nach  Gleichung  4.45).  Die  Kurvenschar  ergibt  sich 
durch  zusatzliche  Variation  der  simulierten  Piequenzmodulation  mit 
verschiedengradigem  RJ  (nach  Gleichung  4.42), 

Das  MODIAS-Mafi  CPPS  korreliert  mit  der  simulierten  Behauchtheit  und  liefert  eine 
korrekte  Reihung  der  Stimmproben  entsprechend  dem  eingestellten  Storungsgrad. 


4.5.  Anwendungen  und  Ergebnisse 

Wie  bereits  dargestellt,  verfolgt  das  Projekt  MODIAS  die  Zielrichtung  einer  Standard- 
diagnostik  neurogener  Sprechstorungssyndrome.  Im  Rahmen  der  Kooperation  zwischen 
der  Klinik  und  Poliklinik  fiir  Mund-Kiefer-Gesichtschirurgie  der  Technischen  Universitat 
Miinchen,  Klinikum  rechts  der  Isar,  mit  der  Entwicklungsgruppe  klinische  Neuropsy- 
chologie  des  Stadtischen  Krankenhauses  Miinchen-Bogenhausen  konnte  aber  auch  ein 
fruchtbarer  und  gewinnbringender  Einsatz  des  MODIAS-Systems  bei  der  apparativ  pho- 
netischen  Untersuchung  an  Patienten  mit  Lippen-Kiefer-Gaumenspalten,  also  einer  vol- 
lig  anderen  Zielgruppe  gezeigt  werden.  Die  Untersuchung  dieser  ingesamt  154  Patienten 
wurde  ausfiihrlich  in  [Bre98]  publiziert;  das  Ergebnis  bzw.  die  Schlufifolgerung  der  Un¬ 
tersuchung  lautete  wie  folgt: 

•  Wahrend  bisherige  Vermutungen  von  einer  erhohten  Vulnerabilitat  von  LKG- 
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4.  Realisierung  des  Moduls  STIMME  UND  VOKALARTIKULATION 

Patienten  fur  Stimmstorungen  ausgegangen  sind,  war  die  in  unserer  Untersuchung 
beobachtete  Pravalenz  von  Stimmstorungen  gegenliber  der  Normalbevolkerung  nur 
geringgradig  erhoht. 

•  Die  apparative  akustische  Analyse  kann  in  der  klinischen  Einzelfalldiagnostik  eine 
sinnvolle  und  praktikable  Erganzung  der  perzeptiven  Befundung  sein. 

Eine  hingegen  idealtypische  Anwendung  des  Moduls  STIMME  UND  VOKALARTIKU¬ 
LATION  bestand  in  einer  1999  durchgefiihrten  Untersuchung  der  Entwicklungsgruppe 
klinische  Neuropsychologie  des  Stadtischen  Krankenliauses  Munchen-Bogenhausen.  Im 
Rahmen  dieser  Studie  wurden  die  Stimmparameter  von  10  Patienten  mit  neurogenen 
Stimmstorungen  verglichen  mit  den  entsprechenden  Parametern  von  12  Normalsprechern. 
Allgemein  konnte  mit  dieser  Studie  gezeigt  werden,  daft  sich  bei  jedem  Patienten  mit  per- 
zeptiV  wahrnehmbaren  Stimmstorungen  mindestens  einer  der  MODIAS-Stimmparameter 
als  sensitiv  herausstellte.  Damit  war  in  alien  Fallen  die  Stimmstorung  ausschlieUlich  auf 
Basis  der  akustischen  Analysen  diagnostizierbar. 

Abbildung  4.45  zeigt  die  Ergebnisse  der  Pitch- Verlaufsanalyse. 


irond  variation  Jlltar 


Abbildung  4.45.;  Ergebnisse  der  Pitch- Verlaufsanalyse  fiir  10  Patienten  mit  neurogenen 
Stimmstorungen  und  12  Normalsprecher. 

Der  Parameter  PITCH-TREND  zeigte  bei  zwei  Patienten  eignifikant  negative  Werte, 
entsprechend  einem  zeitlich  stark  abfallenden  Pitchverlauf  von  bis  zu  5  Prozent  pro  Se- 
kunde.  Beide  Patienten  litten  an  einer  Schwache  der  Kehlkopfmuskulatur.  Bei  6  von  10 
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4.5.  Anwendungen  und  Ergehnisse 


Patienten  traten  iiberhohte  Werte  fiir  die  Parameter  PITCH- VARIABILITAT  und  JIT¬ 
TER  auf.  Abbildung  4.46  zeigt  die  Ergebnisse  der  CPPS-Verlaufsanalyse. 
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Abbildung  4.46.:  Ergebnisse  der  CPPS-Verlaufsanalyse  fiir  10  Patienten  mit  neurogenen 
Stimmstdrungen  und  12  Normalsprecher. 

Der  Parameter  MITTLERE  CPPS  zeigte  bei  fast  alien  Patienten  reduzierte  Werte,  offeu- 
sichtlich  verursacht  durch  einen  unvollstandigen  Glottis- VerschluB  und  den  damit  erhdh- 
ten  Behauchungsgrad.  Bei  3  von  10  Patienten  war  der  Parameter  CPPS-VARIABILITAT 
erhdht,  verursacht  durch  intermittierende  Einbriiche  der  Stimmqualitat  wahrend  der  an- 
haltenden  Vokalisation. 

Die  Ergebnisse  der  Studie  belegen,  dai^  die  Sensitivitat  des  MODIAS-Moduls  fiir  die 
Detektion  neurogener  Stimmstdrungen  ausreicht.  Die  Spezifitat  des  Systems  zur  Klas- 
sifizierung  der  erkannten  Stimmstdrungen  muft  noch  in  nachfolgenden  Studien  gezeigt 
werden  (Samtliche  Ergebnisse  sind  in  [Merk99b]  publiziert). 
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5.  Realisierung  des  Moduls 
SATZPRODUKTION 


Das  diagnostische  und  technische  Konzept  zu  dem  Modul  SATZPRODUKTION  wurde 
bereits  im  Kapitel  3  dargestellt.  Nach  einer  kurzen  Erlauterung  der  relevanten  diagnosti- 
schen  Pragestellungen  widmet  sich  dieses  Kapitel  nun  der  konkreten  Realisierung  inner- 
halb  des  MODIAS-Systems.  Der  interdisziplinare  Charakter  der  Aufgabenstellung  lafit 
hierbei  eine  Zweiteilung  sinnvoll  erscheinen  in  die 


•  klinisch/diagnostisch  relevanten  Anteile,  wie  z.B.  Untersuchungsprotokoll,  gewahl- 
tes  Untersuchungsmaterial,  Ablauf  einer  Untersuchungssitzung  und  Auswertung 
bzw.  Darstellung  der  Ergebnisse,  sowie  in 

•  technisch  relevante  Anteile,  wie  z.B.  angewandte  bzw.  entwickelte  technische  Me- 
thoden,  Verfahren  und  Algorithmen,  die  zu  der  ingenieurwissenschaftlichen  Losung 
der  medizinischen  Problemstellung  gefiihrt  haben. 


Der  letzte  Abschnitt  zeigt  eine  klinische  Anwendung  des  Moduls  SATZPRODUKTION 
im  Rahmen  einer  Langzeit-Therapiekontrolle  an  3  Patienten  mit  schweren  neurogenen 
Spechstorungen.  Die  Untersuchung  wurde  in  der  Entwicklungsgruppe  klinische  Neuro- 
psychologie  der  Abteilung  fvir  Neuropsychologie  am  Stadtischen  Krankenhaus  Miinchen- 
Bogenhausen  durchgefiihrt. 
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5.1.  Diagnostische  Fragestellungen 


Ein  verandertes  Sprechtempo  gehort  zu  den  haufigsten  Symptomen  neurogener  Sprech- 
storungen.  Sowohl  Abweichungen  nach  oben  als  auch  nach  unten  werden  beobach- 
tet,  ein  verlangsamtes  Sprechtempo  tritt  jedoch  in  praxi  bei  weitem  haufiger  auf 
({Ack92];[Zie88];[Zie93c]). 

Von  besonderer  diagnostischer  Bedeutung  ist  die  Prage  der  Verlangsamung  bei  Patienten 
mit  aphasischen  und  mit  sprechapraktischen  Storungen.  In  diesen  Fallen  ist  die  Reduk- 
tion  des  Sprechtempos  nicht  durch  eine  elementar-motorische  Stoning  bedingt,  sondern 
Ausdruck  einer  Beeintrachtigung  hoherer  Prozesse  der  Sprachproduktion,  die  daruber 
hinaus  auch  durch  segmentale  Fehler  charakterisiert  ist. 

Unter  den  segmentalen  Fehlern  sind  die  verschiedenen  Typen  phonematischer  Parapha- 
sien  von  Bedeutung,  suprasegmental  werden  Fehlversuche,  Repairs,  Iterationen,  Pausen, 
Akzentfehler  etc.  beschrieben.  Wahrend  die  Analyse  segmentaler  Fehler  nach  auditi- 
ven  Kriterien  ein  klinisch  etabliertes  Verfahren  darstellt,  gibt  es  fiir  die  Quantifizierung 
der  Zeitaspekte  gestorter  Sprachproduktion  noch  kein  klinisch  anwendbares  Verfahren 
{{Merk97a],[Merk97b]). 

Hier  wird  eine  PC-gesteuerte  Methode  zur  akustischen  Analyse  des  Zeitmusters  der  Satz- 
produktion  bei  Patienten  mit  neurogenen  Sprechstorungen  beschrieben.  Das  Verfahren 
erlaubt  gleichzeitig  eine  auditive  Analyse  nach  phonetischen  und  phonematischen  Feh¬ 
lern.  Es  eignet  sich  zur  Differenzierung  unterschiedlicher  Storungsmuster  und  zur  Analyse 
der  Faktoren,  die  das  Auftreten  von  Unfliissigkeiten  beeinflussen. 


5.2.  Aufbau  und  Gestaltung 

5.2.1.  Untersuchungsprotokoll  und  -material 

Der  Patient  hat  in  diesem  Modul  die  Aufgabe,  24  ausgewahlte  Testsatze  nachzusprechen. 
Die  Untersuchung  kann  in  zwei  unters chi ed lichen  Modi  durchgefiihrt  werden: 

•  Modus  1:  Schwerpunkt  Diagnostik.  Die  24  Satze  bestehen  aus  einer  konstanten 
Tiagerphrase  {Ute  kann  die  ...  bekommen)  mit  je  einem  eingebetteten  Zielwort. 
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5.  Reahsieruiig  des  Modiils  SATZPRODUKTION 

•  Modus  2:  Schwerpimkt  Therapiekontrolle.  Hier  werden  zusatzlich  die  Tragersatze 
variiert  bei  naherimgsweise  gleicheni  Satzrhythmus  und  identischer  Zielwortnienge 
(z.B.  Opa  darf  die  ...  benutzen,  Ida  hat  die  ...  genommen). 

Die  Zielworter  habeii  unterschiedliche  phonologische  Strukturen  und  sind  sorgfaltig  plio- 
netisch  balanciert  ([Bre97]).  Sie  bestehen  zu  gleidien  Teilen  aus 

•  zweisilbigen  Wdrtern  mit  einfacher  Koiisonant-Vokal-Struktur,  z.B.  Tiite, 

•  zweisilbigen  Wdrtern  mit  Konsonant- Cluster,  z.B.  Striimpfe, 

•  dreisilbigen  Wdrtern,  z.B.  Trompete. 

Somit  entstehen  insgesamt  jeweils  8  Satze  pro  Zielworttyp  bzw.  Zielwortkomplexitat. 
Der  erste  Modus  ist  speziell  fiir  die  (einmalige  oder  zeitlich  deutlich  abgesetzte)  Dia- 
gnostik  konzipiert  mit  besonderem  Augenmerk  auf  der  Beobachtung  von  Zdgerphano- 
inenen  vor  dem  betreffenden  Zielwort.  Die  Tragerpbrase  ist  hier  iiber  alle  24  Testsatze 
konstant  gehalten,  die  einzige  Variation  findet  an  der  Stelle  des  Zielwortes  statt.  Sprech- 
apraktisch  gestorte  Patienten  erlernen  relativ  schnell  die  Produktion  des  stets  gleichen 
Tragersatzes;  Probleme  stellen  sich  erst  am  Beginn  der  Variation,  also  am  eingefiigten 
und  meist  komplexeren  Zielwort  ein.  An  dieser  Stelle  treten  Zdgerphanomene,  Stottern 
oder  vdllige  Abbriiche  der  Satzproduktion  auf.  Der  zweite  Modus  ist  leicht  abgewandelt 
und  daher  besser  fiir  die  Baseline-Phase  einer  Therapiekontrolle  geeignet  (Wiederholte 
Untersuchung  an  aufeinanderfolgenden  Tagen  unmittelbar  vor  Beginn  der  Therapie  zur 
Ermittlung  von  Mei^wertstreuungen).  Hier  werden  die  Tragersatze  variiert,  urn  Lernef- 
fekte  zu  vermeiden. 

Die  am  Stadtischen  Krankenhaus  Miinchen-Bogenhausen  durchgefiihrten  Beobachtungen 
von  Therapieverlaufen  allein  mit  dem  Untersuchungsmodus  1  hatten  gezeigt,  daB  sich  die 
Patienten  in  der  Baseline-Phase  der  Therapiekontrolle  zun&chst  deutlich  in  ihrer  Satzpro¬ 
duktion  verbesserten,  was  sich  sowohl  in  der  akustischen  als  auch  in  der  auditiven  Analyse 
manifestierte.  AnschlieBend  erfolgte  fiir  jeden  Patienten  eine  intensive,  mehrwochige  logo- 
padische  Therapie,  deren  Erfolg  abschlieBend  wieder  durch  mehrere  Untersuchungsgange 
gepriift  werden  sollte.  Dabei  stellte  sich  heraus,  daB  die  jetzt  durchgefiihrte  akustische 
Analyse  kelne  Verbesserung  gegeniiber  der  letzten  Untersuchung  (also  vor  der  Therapie) 
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5.2.  Aufbau  und  Gestaltung 


zeigte,  sondern  vielmehr  eine  geringfugige  Verschlechterung.  Diese  akustisch  basierte  Be- 
obachtung  deckte  sich  jedoch  wie  erwartet  nicht  mit  dem  perzeptiv  gewonnenen  Bild. 
Bei  der  Konzeption  des  Untersuchungsprotokolles  war  man  zunachst  davon  ausgegangen, 
dafi  sich  eine  Sattigung  des  Lerneffektes  schon  nach  wenigen  Satzen  innerhalb  nur  eines 
Untersuchungsganges  einstellen  wiirde.  Die  Praxis  zeigte  aber  sehr  schnell,  dafi  sich  dieser 
LernefFekt  auch  iiber  mehrere  Untersuchungsgange  hinaus  beobachten  liefi,  was  bei  der 
(einmaligen)  Diagnostik  zwar  unkritisch,  jedoch  bei  einer  engmaschigen  Verlaufskontrolle 
nicht  mehr  akzeptabel  ist.  Da  bei  der  Kontrolle  therapeutischer  Effekte  die  Informati¬ 
on  iiber  die  Veranderung  von  einem  Untersuchungsgang  zum  nachsten  von  Interesse  ist, 
durfen  die  verwendeten  diagnostischen  Verfahren  nicht  durch  derartige  LernefFekte  ver- 
falscht  werden.  Die  durchgefiihrten  Folgeversuche  konnten  unmittelbar  zeigen,  dafi  die 
beschriebene  Diskrepanz  zwischen  akustischen  Daten  und  perzeptivem  Korrelat  bei  neu- 
erlichen  Therapieuberwachungen  immer  dann  nicht  mehr  zu  beobachten  war,  wenn  auch 
die  Tragerphrasen  variiert  wurden. 

Das  Untersuchungsprotokoll  des  Moduls  SATZPRODUKTION  sieht  grundsatzlich  nur  1 
Durchgang  vor  und  damit  auch  die  Entscheidung  fur  einen  der  beiden  Modi.  Insgesamt 
entstehen  daher  pro  Untersuchimg  24  Satzaufzeichnungen  bzw.  jeweils  8  Satzaufzeich- 
nungen  pro  Zielwortkomplexitat. 

5.2.2.  Untersuchungsablauf  und  Bedlenung 

Nach  dem  Aufruf  des  MODIAS-Systems  erscheint  die  Startoberflache  gem.  Abbildung 
4.1  auf  Seite  47  mit  dem  entsprechenden  Startbutton  fiir  das  Modul  SATZPRODUKTI¬ 
ON. 

Nach  Betatigung  des  Buttons  START!  gelangt  man  unmittelbar  zur  Organisationsober- 
flache  gem.  Abbildung  4.2  auf  Seite  48  mit  der  Aufforderung  zur  Eingabe  samtlicher 
relevanter  Daten  zum  Patienten  und  zur  aktuellen  Untersuchungssitzung. 

Der  Untersucher  wird  jetzt  zur  Steuerungsoberflache  gem.  Abbildung  5.1  weitergeleitet, 
die  eine  Festlegung  beziiglich  des  weiteren  Fortgangs  der  Untersuchung  fordert  bzw.  er- 
moglicht. 

Im  oberen  Teil  der  Steuerungsoberflache  wird  der  bereits  dargestellte  Untersuchungsmo- 
dus  festgelegt,  das  ist  entweder 

•  Modus  1  mit  festen  Tragerphrasen  bei  variiertem  Zielwort,  daher  optimiert  fiir  die 
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Abbildimg  5.1.:  Steuerungsoberflache  des  Moduls  SATZPRODUKTION  zur  Festlegung 
des  weiteren  Untersuchungsablaufs.  An  dieser  Stelle  wird  voni  Untersu- 
cher  angegeben,  welcher  Untersuchungsmodus  (feste  oder  variierte  Tra- 
gerphrase)  bzw.  wleviele  Testsatze  innerhalb  des  gewahlten  Modus  ge- 
nutzt  werden  sollen. 

Beobachtung  von  Zogerphanomenen  beim  Obergang  von  der  bekannten  Trager- 
phrase  zum  unbekannten  und  artikulatorisch  komplexer  zu  realisierenden  Zielwort 
(Schwerpunkt:  Diagnostik), 

•  Modus  2  init  zusatzlich  variierenden  TVagerphrasen,  dalier  optimiert  fiir  die  Be¬ 
obachtung  von  langerfristigen  Veianderungen  bzw.  mehreren  Untersuchungen  am 
gleichen  Patienten  (Schwerpunkt:  Engmaschige  Verlaufskontrolle). 

Iin  unteren  Teil  der  Steuerungsoberflache  kann  der  Untersucher  auswahlen,  ob  das 

•  komplette  Standardprotokoll  mit  24  Testsatzen  und  damit  je  8  Testsatzen  pro  Ziel- 
wortkomplexitat  oder  aber  das 

•  verkiirzte  Untersuchungsprotokoll  mit  18,  12  oder  nur  6  Testsatzen 
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genutzt  werden  soil. 

Durch  Betatigung  des  Buttons  WEITER...  gelangt  man  in  die  erste  der  bis  zu  4  aufein- 
anderfolgenden  Aufzeichnungsoberflaclien  gem.  Abbildung  5.2.  Diese  Verteilung  ergibt 
sich  in  Abhangigkeit  von  der  Lange  des  Untersuchungsprotokolls.  Die  Darstellung  der 
Testsatze  erfolgt  bezuglich  der  enthaltenen  Zielwortkomplexitat  randomiaiert. 


lie  No.  1:  Auf/f;Khnum|sn)er»ue... 
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Abbildung  5.2.:  Eine  der  bis  zu  4  aufeinanderfolgenden  Aufzeichnungsoberfiachen  des 
Moduls  SATZPRODUKTION.  Die  Testsatze  sind  bezuglich  der  enthal¬ 
tenen  Zielwortkomplexitat  randomisiert.  Die  Aufzeichnung  wird  jeweils 
durch  den  Button  AUFZEICHNEN...  gestartet.  Liegt  bereits  eine  Auf¬ 
zeichnung  vor,  ist  nur  die  Wiedergabe  (iber  den  vom  System  ersetzten 
Button  ANHOREN...  moglich. 

Die  Aufzeichnung  jedes  Satzes  wird  durch  Betatigung  des  entsprechenden  Buttons  AUF- 
NEHMEN...  gestartet.  ,  ;  , 

Bei  der  Aufzeichnung  wird  jeder  Testsatz  vom  Patienten  in  normalem  Tempo  moglichst 
natiirlich  nachgesprochen.  Soil  die  Aufzeichnung  gespeichert  werden,  geniigt  das  Schlie- 
fien  des  Soundrecorders  (siehe  Abbildung  4.5  auf  Seite  51)  und  die  Speicherung  wie 
vorgeschlagen.  Der  Dateiname  ist  durch  MODIAS  bereits  voreingestellt,  ebenso  die  Sy- 
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st.emeinstellungen  beziiglich  Samplingrate  (22050  Hz)  und  Auflosung  (16Bit). 

Die  im  Unterguchungsprotokoll  vorgesehene  Stilleaufzeichnung  sieht  eine  Aufzeichnung 
ohne  Aufsprache  bzw.  ohne  jegliche  Art  von  (nicht  systemimmanenten)  Storgerauschen 
niit  einer  Daiier  von  ca.  5  sec  vor.  Eine  automatisch  durchgefiihrte  statistische  Analyse 
des  systemspezifischen  Rauschens  des  Aufzeichnungssystems  Soundkarte/Rechner  ermog- 
licbt  eine  wesentlich  exaktere  Festlegung  der  Silbengrenzen  bzw.  von  Signalabschnitten 
mit  artikulatorischer  Aktivitat. 

Wie  bereits  dargestellt,  besteht  jede  Aufzeichnung  aus  einem  neun-  bzw.  zehnsilbigen 
Satz,  zwischen  den  Silben  konnen  Sprechpausen  unterschiedlicher  Dauer  liegen.  Zur  Ab- 
leitung  der  suprasegmentalen  bzw.  zeitlichen  Aspekte  der  Satzproduktion  ist  es  zunachst 
erforderlich,  den  aufgezeichneten  Satz  weitgehend  automatisch  in  einzelne  Silben  zu  seg- 
mentieren.  Da  samtliche  hierzu  bekannten  Verfahren  bei  unscharfer  Artikulation  an  ihre 
Grenzen  stolSen,  inuR  neben  einem  gesteigerten  Aufwand  in  das  technische  Verfahren 
dem  Untersucher  auch  die  Moglichkeit  gegeben  werden,  in  die  Segmentierung  steuernd 
eingreifen  zu  konnen.  Gerade  in  der  zeitlichen  Lage  der  Einzelsilben  und  in  ihrer  Dauer 
liegt  die  Information,  die  zur  spateren  Beurteilung  des  Redeflusses  herangezogen  werden 
soil, 

Hierzu  wurde  in  dem  Modul  SATZPRODUKTION  ein  spezieller  Segmentierungseditor 
implementiert,  der  einen  mit  der  subjektiven  Lautheitsempfindung  des  mengchlichen  Ge- 
hors  korrespondierenden  Kurvenverlauf  (Lautheitskontur)  darstellt  und  damit  eine  geeig- 
nete  Oberflache  fiir  die  weitere  Bearbeitung  durch  den  Untersucher  zur  Verfiigung  stellt. 
Die  erforderlichen  Berechnungen  der  Lautheitskonturen  sowie  der  daraus  abgeleiteten  Sil¬ 
bengrenzen  werden  automatisch  beim  Obergang  von  den  Aufzeichnungsoberflachen  zur 
anschlieSenden  Segmentierungsoberflache  gem.  Abbildung  5.3  fiir  jeden  der  realisierten 
Testsiitze  berechnet. 

Die  Segmentierungsoberflache  gestattet  fiir  jede  durchgefiihrte  Aufzeichnung  (erkennbar 
an  einer  gelben  Markierung  am  rechten  Rand  der  jeweiligen  Textfelder)  uber  den  Button 
SEGMENTIEREN...  den  Aufruf  des  Segmentierungseditors  gem.  Abbildung  5.4, 

Im  Segmentierungseditor  werden  zunachst  die  berechneten  Lautheitskonturen  fiir  den 
jeweiligen  Testsatzes  grafisch  darstellt  und  dabei  die  vom  Segmentierungsalgorithmus 
automatisch  erkannten  Silben  entsprechend  markiert.  Die  Lautheitskonturen  zeigen  ide- 
altypisch  lokale  Maxima  an  den  Orten  der  Silbenkerne  bzw.  lokale  Minima  an  den  Orten 
der  Silbeniibergange  bzw.  in  den  Sprechpausen. 

Die  rechta  oben  eingeblendeten  Inforrnationsfelder  zeigen  dem  Untersucher  den  aktuellen 
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l^jrifiure  No  I:  Seninenheiunqsfnontjf 


Seyr 

nentlorungstelt  1:  Zwelsilber  (CVCV) 

Abbildung  5.3.:  Eine  der  3  Segmentierungsoberflachen  des  Moduls  SATZPRODUK- 
TION,  hier  fur  die  Komplexitat  zweisilbiger  Zielworte  mit  einfacher 
Konsonant-Vokal-Struktur  (CVC V) . 


Stand  der  Silbensegmentierung  fiir  den  gerade  bearbeiteten  Testsatz  an.  Diese  Felder 
sind  dabei  folgendermaEen  zu  interpretieren: 


•  ZIELSILBEN:  Soll-Anzahl  der  (Ziel-)Silben  des  nachzusprechenden  Testsatzes.  Sie 
ist  a  priori  bekannt  und  hangt  ausschliel^lich  von  der  Zielwortkomplexitat  ab  (Wert 
9  bei  zweisilbigem  Zielwort  bzw.  Wert  10  bei  dreisilbigem  Zielwort). 

•  BISHER  ERMITTELT:  Ist-Anzahl  der  Zielsilben  des  tatsachlich  produzierten  Test¬ 
satzes  nach  dem  gegenwartigen  Kenntnisstand  des  Systems.  Zielsilben  sind  fiir  alle 
weiteren  Betrachtungen  die  vom  Patienten  produzierten  Silben,  die  auch  tatsachlich 
zum  Silbenumfang  des  Testsatzes  gehoren.  Die  Anzeige  ist  dynamisch  und  hangt 
sowohl  von  der  akustisch  basierten  Silbensegmentierjjng  als  auch  von  der  auditiv 
basierten  Silbenattribuierung  (Erlauterung  hierzu  auf  Seite  125)  ab. 
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Abbildung  5.4.:  Bedienoberflache  des  Segmentierungseditors  des  Moduls  SATZPRO¬ 
DUKTION.  Hier  erfolgt  die  manuelle  Einflufinahme  des  Untersuchers 
aiif  die  vom  System  vorgeschlagene  Segmentierung  wie  auch  die  Ein- 
gabe  audltiver  Stdrungsmerkmale  (Silbenattribute).  Zusatzlich  wird  das 
zeitaynchrone  Oszillogramm  eingeblendet. 

Miissen  die  vorgesclilagenen  Silbengrenzen  beziiglich  ihrer  zeitlichen  Lage  korrigiert  wer- 
den,  stehen  deni  Untersucher  mehrere  Interaktionsmoglichkeiten  zur  Verfvigung.  Unter- 
stiitzend  wird  hierzu  im  unteren  Teil  des  Bildschirms  das  zeitsynchrone  Oszillogramm 
zur  erganzenden  Visualisierung  des  Spradisignales  eingeblendet. 

Das  Menii  MANIPULATION  dient  der  unmittelbaren,  manuellen  Einflufinahme  auf  die 
bisher  automatisdi  erfolgte  Segmentierung.  Es  bietet  die  folgende  Auswahl: 

•  ZWEI  SILBEN  VEREINIGEN:  Diese  Punktion  ist  immer  dann  sinnvoll,  wenn  eine 
Silbe  z.B.  aufgrund  eines  Lautheitseinbruches  im  Silbenkern  vom  Segmentierungs- 
algorithmus  falsdilidierweise  in  zwei  (Halb-)Silben  geteilt  wurde.  Das  kann  vor 
allem  bei  Plosiv-Vokal-Folgen  mit  ausgepragtem  Verschlufelosungsgerausdi  gesche- 
hen.  Hierzu  Silbenkern  mit  linker  Mousetaste  selektieren;  damit  wird  die  aktuelle 
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Silbe  mit  der  unmittelbar  nachfolgenden  Silbe  vereinigt. 

•  SILBE  LOSCHEN:  Gestattet  die  Entfernung  von  Silben,  z.B.  bei  fehlinterpretierten 
Artefakten.  Der  betreffende  Silbenkern  wird  mit  linker  Mousetaste  selektiert,  damit 
wird  die  gesamte  Silbe  entfernt, 

•  SILBE  SETZEN:  Manuelle  Markierung  einer  Silbe,  die  ggf.  vom  Algorithmus  zu- 
nachst  unerkannt  geblieben  war,  Hierzu  Silbenkern  mit  linker  Mousetaste  setzen; 
die  zugehorigen  Silbengrenzen  werden  automatisch  vom  System  vorgeschlagen. 

•  LINKE  bzw.  RECHTE  SILBENGRENZE  VERSCHIEBEN;  Erlaubt  die  manuelle 
Verschiebung  von  Silbengrenzen.  Der  Silbenkern  wird  hierfiir  mit  der  linken  Mou- 
setaste  selektiert,  danach  wird  der  neue  Ort  der  linken  bzw.  rechten  Silbengrenze 
mit  gleicher  Mousetaste  vorgegeben, 

Das  Menii  WIEDERGABE  gestattet  dem  Untersucher  die  perzeptive  Kontrolle  der  bis- 
herigen  Silbensegmentierung.  Die  Auswahl  erlaubt  sowohl  die  Wiedergabe  der  gesamten 
Aufzeichnung  als  auch  die  Wiedergabe  ausschlieftlich  der  segmentierten  Silben  innerhalb 
ihrer  jeweiligen  Grenzen.  Die  Wiedergabe  einzelner  Silben  ist  ebenfalls  vorgesehen. 

Die  zusatzliche  Auswahl  der  ZIELSILBENWIEDERGABE  sieht  die  Beschrankung  der 
akustischen  Darbietung  auf  die  bereits  beschriebenen  Zielsilben  vor,  also  diejenigen  Sil¬ 
ben,  die  auch  tatsachlich  zum  Silbenumfang  des  zu  produzierenden  Testsatzes  gehoren. 
Jede  weitere  Silbe  tragt  aufgrund  ihrer  Redundanz  (wiederholte  Silben)  bzw.  Irrelevanz 
(hinzugefiigte  Silben)  nicht  zur  Informationsiibertragung  bei  und  ist  in  diesem  Sinne 
iiberflussig. 

Das  Menii  ATTRIBUTVERGABE  stellt  dem  Untersucher  eine  Schnittstelle  zur  Verfii- 
gung,  bei  Bedarf  jede  beliebige  Silbe  mit  zusatzlicher  auditiver  Information  zu  versehen. 
Die  Attribuierung  einer  segmentierten  Silbe  erfolgt  durch  Auswahl  des  avisierten  Attri¬ 
butes  und  durch  Plazierung  mit  der  linken  Mousetaste  direkt  am  jeweiligen  Silbenkern. 
In  einem  ersten  Schritt  werden  diejenigen  Silben  mit  Attributen  versehen,  die  nicht  zum 
eigentlichen  Testsatz  gehoren.  Das  sind: 

•  IT  (ITERATION):  Wiederholte  Silbe  z.B.  durch  Stottern; 

•  AD  (HINZUFUGUNG):  Addierte  Silbe,  Fehlversuch  oder  Selbstkorrektur. 
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In  einem  zweiten  Bearbeitungsschritt  werden  bei  Bedarf  (Ziel-)Silben  markiert,  die  vom 
Patienteii  gar  nicht  realisiert  worden  sind.  Da  in  diesem  Falle  logischervveise  keine  direkte 
Attribuiei'ung  moglich  ist,  wird  die  unmittelbar  vorhergehende  Silbe  mit  dem  Attribut 

•  E>  (ELISION):  Nachgeordnet  wurden  Zielsilben  nicht  produziert  - 

versehen.  An  dieser  Stelle  stehen  dem  Untersucher  die  Attribute  1E>  (d.h.  1  ausgelassene 
Silbe  folgt)  bis  9E>  (d.h,  9  ausgelassene  Silben  folgen)  zur  Verfiigung.  Das  Attribut  9E> 
wiirde  beispielswelse  dann  vergeben,  wenn  im  Falle  eines  10-silbigen  Testsatzes  schon 
iiach  der  ersten  Silbe  ein  volliger  Abbruch  der  Satzproduktion  stattfande. 

Sinn  und  Zweck  der  bisherigen  Attribuierung  gem.  Schritt  1  und  2  ist  es,  dem  MODIAS- 
System  eine  eindeutige  Zuordnung  zwischen  den  detektierten  Maxima  der  Lautheits- 
kontur  und  den  perzeptiv  wahrnehmbaren  Silben  treffen  zu  konnen,  also  zwischen  den 
realisierten  Silben  (einschllefelich  vorkommender  Iterationen,  Additionen  und  Elisionen) 
und  den  9  bzw.  10  tatsachlichen  Zielsilben.  Diese  Aufgabenstellung  ist  prinzipiell  durch 
eine  vollstandige  phonetische  'Danskriptioh  samtlicher  realisierter  Silben  losbar. 
Einfacher  und  effizienter  erscheint  hier  der  Ansatz,  den  Untersucher  nicht  generell  zur  Ein- 
gabe  auditiver  Information  aufzufordern,  sondern  nur  dann,  wenn  diagnostisch  relevante 
Abweichungen  von  einer  ungestorten  Satzproduktion  auftreten.  Der  Segmentierungsedi- 
tor  ist  daher  so  konzipiert,  daf^  sich  die  geforderte  Zuordnung  bei  abgeschlossener  und 
fehlerfreier  Attribuierung  automatisch  ergeben  muR,  sie  wird  standig  algorithmisch  und 
damit  nicht  sichtbar  fiir  den  Untersucher  (iberwacht. 

Das  bereits  beschriebene  Informationsfeld  BISHER  ERMITTELT  wird  bei  Vergabe  der 
Attribute  IT  bzw.  AD  jeweils  dekrementiert,  da  die  eoeben  markierte  Silbe  keine  Zielsil- 
be  darstellt  und  damit  aus  der  Menge  der  betrachteten  Zielsilbenkandidaten  herausfallt. 
Bei  Vergabe  des  Attributes  E>  findet  keine  sichtbare  Veranderung  des  Informationsfeldes 
statt,  jedoch  wird  die  Information  bezuglich  der  fehlenden  Silben  bei  der  Plausibilitats- 
priifung  am  Ende  des  Segmentierungsvorganges  entsprechend  beriicksichtigt  (siehe  Seite 
127). 

Im  dritten  und  letzten  Schritt  werden  diejenigen  Silben  markiert,  die  gemaft  perzepti- 
vem  Horeindruck  des  Untersuchers  bzw.  seiner  auditiven  Befundung  segmentale  Fehler 
beinhalten.  Moglich  sind  hier 

•  PE  (PHONETISCHE  ENTSTELLUNG):  Silbe  beinhaltet  in  der  phonetischen  Aus- 
pragung  eine  diagnostisch  relevante  Lautveranderung.  Hierbei  wird  prazisierend 
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unterschieden,  ob  Silbenonset  (anklingende  Halbsilbe)  oder  Rhyme  (abklingende 
Halbsilbe)  betroffen  sind  (Attribut  PEI)  oder  sogar  beide  Halbsilben  (Attribut 
PE2). 

•  PP  (PHONEMAT-ISCHE  PARAPH ASIE):  Silbe  wurde  durch  Ersetzung,  Auslas- 
sung,  Umstellung  oder  Hinzufiigung  einzelner  Laute  verandert.  Auch  hier  wird  un¬ 
terschieden,  ob  Silbenonset  oder  Rhyme  (Attribut  PPl)  bzw.  beide  betroffen  sind 
(Attribut  PP2). 

Sollte  es  aufgrund  einer  verwaschenen  bzw.  wenig  kontrastreichen  Artikulation  des  Pa- 
tienten  oder  auch  aufgrund  koartikulatorischer  Effekte  (hier  besonders  haufig  bei  den 
letzten  beiden  Silben  ../kom/men/)  fiir  den  autoniatischen  Silbensegmentierungsalgo- 
rithmus  nicht  moglich  sein,  zwei  benachbarte  Silben  zu  trennen,  kann  zusatzlich  das 
Attribut 

•  VE  (VERSCHMELZUNG):  Markierte  Silbe  besteht  eigentlich  aus  2  Einzelsilben 
und  konnte  nicht  getrennt  werden  - 

vergeben  werden.  Damit  wird  dieses  Silbenkonglomerat  intern  wie  2  getrennte  Silben 
mit  jeweils  halber  Silbeiidauer  betrachtet.  Das  Informationsfeld  BISHER  ERMITTELT 
wird  entsprechend  inkrementiert. 

Durch  die  gewahlte  Art  der  Silbenattribuierung  und  die  parallele  Kontrolle  iiber 
den  beschriebenen  Silbenzahler  ist  es  nun  algorithmisch  moglich,  neben  der  gesuchten 
eindeutigen  Zuordnung  der  Zielsilben  auch  die  vom  Untersucher  eingegebene  auditive 
Information  in  gewissen  Grenzen  auf  ihre  Plausibilitat  hin  zu  uberpriifen.  Aus  logischer 
Oberlegung  foigt,  daU  nach  fehlerfreier  Durchfiihrung  sowohl  der  Segmentierung  als 
auch  der  Attribuierung  die  beiden  erlauterten  Informationsfelder  in  einem  direkten 
Zusammenhang  stehen  mussen:  Der  Feldinhalt  BISHER  ERMITTELT  entspricht  zu 
diesem  Zeitpunkt  dem  Feldinhalt  ZIELSILBEN,  bzw.  ist  er  beim  Vorkommen  von 
Elisionen  um  deren  Sumnie  erhoht.  Der  Segmentierungseditor  kann  softwaregesteuert 
nur  bei  Eifiillung  dieses  Plausibilitatskriteriums  mit  dem  Button  OK  verlassen  werden. 
Jede  Abweichuiig  ware  an  dieser  Stelle  nur  auf  einen  (oder  mehrere)  Attribuierungsfehler 
des  Untersuchers  zuriickzufiihren,  was  aufgrund  der  besonders  hohen  diagnostischen 
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Relevanz  der  auditiven  Information  zu  folgenschweren  Fehlinterpretationen  fuhren 
konnte. 

Das  Menii  SONDERFUNKTIONEN  bietet  dem  Nutzer  die  Moglichkeit,  den  Al- 
gorithinus  ziir  Berechnung  der  Lautheitskontur  an  die  jeweilige  Sprechgeschwindigkeit 
des  Patienten  anzupassen.  Werden  bei  Aufruf  des  Segmentierungseditors  zunachst 
weniger  als  9  bzw.  10  Silben  detektiert  und  liegt  subjektiv  ein  erhohtes  Sprechtempo 
vor,  kann  hier  die  Auswahl  ANPASSUNG  AN  HOHE  SPRECHGESCHWINDIGKEIT 
erfolgversprediend  sein.  Werden  umgekehrt  mehr  als  9  bzw.  10  Silben  erkannt  und  liegt 
subjektiv  ein  verlangsanite.<5  Sprechtempo  vor,  sollte  die  Anpassung  der  Sprechgeschwin¬ 
digkeit  entsprechend  nach  unten  erfolgen. 

Die  Auswahl  MANUELLE  THRESHOLD-FESTLEGUNG  gestattet  dem  Untersu- 
cher  die  spezifische  Vorgabe  einer  Mindestlautheit  fvir  die  Detektion  von  Silben  direkt  in 
der  Grafik  liber  die  linke  Mousetaste. 

Das  Menii  HILFSMITTEL  ermoglicht  eine  benutzerdefinierte  Zoomfunktion  be- 
ziiglich  der  Zeitachse  bei  fester  Skalierung  der  Lautheitsachse.  Die  Festlegung  des 
darzustellenden  Bereiches  erfolgt  durch  Aufziehen  eines  Zoomfensters  bei  gedruckter  lin¬ 
ker  Mousetaste.  Die  drei  weiteren  Auswahlmoglichkeiten  dieses  Mentis  steuern  das  Ein- 
bzw.  Ausblenden  des  Oszillogrammes  sowie  die  Anpassung  der  Oszillogramm-Darstellung 
auf  bereits  erfolgte  Manipulationen  (linke  bzw.  rechte  Silbengrenze  verschoben)  oder 
geanderte  Skalierungen  (Zeitachse  gezoomt).  Das  letzte  Menii  ?  bietet  eine  Hilfefunktion 
mit  ausfilhrl idler  Beschreibung  der  Bedienung  des  Segmentierungseditors. 

Nach  Verlassen  des  Segmentierungseditors  mit  dem  Button  OK  werden  die  jetzt 
iiberfliissigen  Signalabschnitte  vor  der  ersten  Silbe  und  nach  der  letzten  Silbe  entfernt. 
Sind  alle  Aufzeichnungen  innerhalb  der  Segmentierungsoberflache  bearbeitet,  erfolgt  der 
tibergang  zur  Auswertung. 

5.2.3.  Auswertung,  Ergebnisdarstellung  und  Datenexport 

Die  Auswertungsoberflache  gem.  Abbildung  5.5  gestattet  die  getrennte  Auswertung  nach 
den  3  verschiedenen  Zielwortkomplexitaten,  hier  bezeichnet  als 
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•  Zweisilbler, 

•  Komplexe  Zweisilbler, 

•  Dreisilbler, 


sowie  die  ubergreifende  Auswertung  uber  alle  24  Testsatze. 


Abbildung  5.5.:  Auswertungsoberflache  des  Moduls  SATZPRODUKTION.  Von  hier  aus 
werden  die  Einzelauswertungen  nach  Zielwortkomplexitat  bzw.  die  iiber- 
greifende  Auswertung  iiber  alle  Testsatze  initiiert. 

5. 2. 3.1.  Auswertung  getrennt  nach  ZielwortkomplexitSt 

Das  erste  Auswertungsblatt  gem,  Abbildung  5.6  widniet  sich  primar  der  grafischen 
Visualisierung  von  Tempo,  Rhythmus  und  Redeflufi,  wobei  die  akustisch  gewonnene 
Information  mit  der  auditiven  Information  des  Untersuchers  geeignet  verschrankt  werden 
soil.  Hierzu  wurde  fiir  beide  Grafiken  eine  Darstellung  gewahlt,  die  auf  der  Abszisse  ein 
festes,  aquidistantes  Raster  mit  9  bzw.  10  Zielsilben  enthalt. 
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Im  oberen  Teil  des  Auswertungsblattes  sind  fiir  jeden  der  8  Testsatze  der  gewahlten 
Zielwortkoinplexitat  die  ermittelten  Silbendauern  in  der  Dimension  ms  iiber  der  entspre- 
chenden  Silbe  aufgetragen.  Die  Silbendauer  ist  die  zeitliche  Differenz  zwischen  jeweils 
rechter  und  linker  Silbengrenze.  Der  resultierende  Verlauf  jedes  Testsatzes  ist  hier  in 
einer  eigenen  Farbe  dargestellt  gemSft  der  unten  reclits  dargestellten  Legende. 


Abbildung  5.6.:  Auswertung  zum  Modul  SATZPRODUKTION,  getrennt  nach  Zielwort- 
komplexitat,  Blatt  1.  Die  gewahlte  Art  der  Darstellung  visualisiert  gra- 
fisch  den  SprechfluiJ  und  deckt  Zogerzeiten  (haufig  vor  dem  Zielwort) 
auf. 


Das  hier  gezeigte  Beispiel  gem.  Abbildung  5.6  entstammt  einer  Untersuchung  an 
einem  Patienten  mit  Sprechapraxie-Syndrom,  Bis  zum  Zielwort  ist  die  Satzproduktion 
iiberwiegend  unauffallig.  Der  Testsatz  mit  Zielwort  Pute  wurde  hier  schon  vor  Beginn 
des  Zielwortes  vollig  abgebrochen,  erkennbar  an  den  folgenden  Silbendauern  mit  dem 
Wert  Null. 

Die  eingeblendete  gestrichelte  Linie  zeigt  den  Durchschnittswert  der  Silbendauern  an, 
berechnet  uber  alle  realisierten  Silben  (Grand  Average),  hier  231m8. 
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Die  am  oberen  Rand  dargestellte  Tabelle  gibt  an,  bei  welcher  Silbe  und  dort  mit  welcher 
absoluten  Haufigkeit  phonetische  Entstellungen  (PE),  Phonematische  Paraphasien  (PP) 
und  Elisionen  (EL)  innerhalb  der  realisierten  Satze  festgestellt  wurden.  Damit  erofFnet 
sich  dem  Untersucher  die  Mdglichkeit,  quantifizierbare  Aussagen  beziiglich  der  Ursachen 
unflussiger  Satzproduktion  zu  trefFen. 

Im  unteren  Teil  des  Auswertungsblattes  sind  die  Silbenstartzeitpunkte  in  ihrer  relativen 
zeitlichen  Lage  bezogen  auf  die  Gesamtdauer  der  Aufierung  aufgetragen.  Damit  beginnt 
jede  Kurve  mit  der  ersten  Silbe  bei  dem  Wert  0  und  endet  bei  der  letzten  Silbe  mit  einem 
Wert  kleiner  als  100  Prozent  (Startzeit  der  letzten  Silbe  liegt  kurz  vor  dem  Ende  der 
AuUerung,  es  folgt  aber  noch  die  letzte  Silbe).  Durch  diese  Art  der  Darstellung  wird  der 
bei  Sprechgesunden  naherungsweise  lineare  Silben-  bzw.  Redeflufi  grafisch  visualisiert, 
jede  Redeflufistorung  -  z.B.  durch  das  bei  Patienten  mit  Sprechapraxiesyndrom  typische 
Zogerphanomen  meist  unmittelbar  vor  dem  Zielwort  -  tritt  deutlich  durch  einen  Knick 
im  Kurvenverlauf  hervor. 

Das  Menu  DRUCKEN  stellt  diverse  Varianten  der  Druckausgabe  zur  Verfiigung,  wie 
Farbdruck,  Schwarz- Weifi-Druck  oder  Kopie  in  die  Zwischenablage  fiir  die  weitere 
Verwendung  in  klinischen  Berichten  usw. 

Das  Menu  WIEDERGABE  erlaubt  dem  Untersucher  die  akustische  Wiedergabe  einzel- 
ner  Testsatze  bei  gleichzeitiger  Betrachtung  der  ermittelten  Kurvenverlaufe. 

Das  zweite  Auswertungsblatt  gem.  Abbildung  5.7  soil  dem  Untersucher  einen  Oberblick 
verschafFen  iiber  die  Ursachen  eines  ggf.  beobachteten  verlangsamten  Redeflusses  und 
auch  iiber  die  Unterschiede  in  Abhangigkeit  vom  Zielwort.  Hierzu  werden  3  verschiedene 
Quotienten  abgeleitet  und  dargestellt,  das  sind  der 

•  PAUSENQUOTIENT:  Anted  der  Sprechpausen  an  der  Gesamtdauer  der  Aufierung. 
Ein  hoher  Quotient  deutet  auf  verlangerte  Pausen  hin; 

•  ITERATIONSQUOTIENT:  Anted  der  Iterationen  an  der  Gesamtdauer  der  Au- 
fierung.  Ein  hoher  Quotient  deutet  auf  Stottern  hin,  haufig  beobachtbar  vor  dem 
Zielwort; 

•  ADDITIONSQUOTIENT:  Anted  der  Hinzufiigungen  an  der  Gesamtdauer  der  Au- 
fierung.  Ein  hoher  Quotient  deutet  hier  auf  haufige  Fehlversuche  oder  Selbstkor- 
rekturen  hin. 
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Abbildung  5.7.:  Auswertung  zum  Modul  SATZPRODUKTION,  getrennt  nach  Zielwort- 
komplexitat,  Blatt  2.  Die  dargestellten  Zeitquotienten  geben  AufschluS 
dartiber,  wie  effizient  der  Patient  den  Zeitraum  der  Nachsprechaufgabe 
zur  Informationsubertragung  nutzt. 


Das  dritte  und  letzte  Auswertungsblatt  gem.  Abbildung  5.8  faBt  die  bisherigen  Ergebnis- 
se  zusammen  und  bietet  reprasentative  Mittelwerte  fur  die  in  Auswertung  befindlichen 
TestsStze  der  gewShlten  Zielwortkomplexitat.  Es  zeigt  in  der  linken  Halfte  eine  Statistik 
iiber 


•  SILBENFEHLER:  Iterationen  (IT),  Additionen  (AD)  bzw.  EUsionen  (E>), 

•  SEGMENTALE  FEHLER:  Phonetische  Entstellungen  (PE)  oder  Phonematische 
Parapliasien  (PP), 

•  ZEITASPEKTE:  Mittlere  (Netto-)Silbendauer,  mittlere  Nettosilbenrate  und  mitt- 
lere  Bruttoeilbenrate. 
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Eni<rnblt'Slitl<Ii1( 


Sllbanrshler 

l!«tslioiitn: 

Additoran: 

Ellilonan: 

Segnnantftia  Fabler. 
Pbonet.  Eblstatlur.gab: 
Phonem.  P&rephailan: 

Zallaipikta; 

MWara  Siltapdeuen 
Mialara  Nanatilbanrala 
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Abbildung  5.8.;  Auswertung  zum  Modul  SATZPRODUKTION,  getrennt  nach  Zielwort- 
komplexitat,  Blatt  3. 

Die  beiden  Fehlerzahlen  ergeben  sich  durch  Aufsummierun'g  iiber  alle  betrachteten  Test- 
satze.  Die  MITTLERE  SILBENDAUER  entspricht  dem  Gesamtmittelwert  iiber  die  Sil- 
bendauern  aller  realisierter  Silben  der  betrachteten  Testsatze.  Dieser  Wert  wurde  bereits 
auf  dem  Auswertungsblatt  1  dargestellt  und  erscheint  hier  der  Vollstandigkeit  halber. 
Die  MITTLERE  NETTOSILBENRATE  erreclinet  sich  aus  dem  Kehrwert  der  MITTLE- 
REN  SILBENDAUER.  Sie  stellt  damit  das  Prequenzanalogon  zu  diesem  Zeitparameter 
dar  und  tragt  die  Dimension  Hz. 

Die  MITTLERE  BRUTTOSILBENRATE  hingegen  errechnet  sich  aus  dem  Kehrwert 
der  Bruttosilbendauern,  das  sind  die  mittleren  Zeitabstande  zwischen  den  jeweils  linken 
Silbengrenzen.  Damit  gehen  auch  die  Sprechpausen  in  die  weitere  Bewertung  ein.  Diese 
Art  der  Unterscheidung  ermoglicht  in  praxi  u.a.  die  differenzierte  Bewertung  der  Satz- 
produktion  bei  Patienten  mit  kurzen,  abgehackten  Silben.  In  diesem  Falle  werden  sich 
die  Brutto-  und  die  Nettosilbenrate  aufgrund  der  verlangerten  Pausen  erheblich  unter- 
scheiden,  wahrend  die  beiden  Raten  bei  Sprechgesunden  nur  geringfiigige  Unterschiede 
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aufweisen. 

In  der  rechten  Bildhalfte  sind  die  mittleren  PAUSEN-,  ITERATIONS-  und  ADDITI- 
ONSQUOTIENTEN  der  betrachteten  Testsatze  mit  farbigen  Balken  visualisiert  (Erlau- 
terungen  zu  diesen  Parametern  siehe  Seite  131). 

5. 2. 3. 2.  Auswertung  Ober  alle  ZielwortkomplexitSten 

Wahrend  im  vorhergehenden  Abschnitt  die  Auswertung  getrennt  nach  Zielworttypen 
durchgefUhrt  wurde,  erfolgt  hier  eine  iibergreifende  Auswertung  uber  alle  3  verschiede- 
nen  Zielworttypen  hinweg.  Damit  sollen  die  Unterschiede  und  Abhangigkeiten  in  der 
Satzproduktion  bei  Zielworten  unterschiedlicher  artikulatorischer  Komplexitat  sichtbar 
geinacht  warden. 

Hier  werden  nun  nicht  mehr  reprasentative  Parameterverlaufe  fiir  jeden  Testsatz  einzeln, 
sondern  nur  noch  die  innerhalb  einer  Zielwortkomplexitat  gemittelten  Verlaufe  sowie  zu- 
sfitzlich  deren  Gesamtmittelwert  dargestellt.  Der  Aufruf  dieser  Auswertung  ist  nur  mog- 
lich,  wenn  die  Einzelauswertungen  aller  3  Zielwortkomplexitaten  zuvor  bereits  aufgerufen 
worden  waren  und  damit  samtliche  Teilergebnisse  im  System  verfiigbar  sind. 

Das  erste  Auswertungsblatt  gem.  Abbildung  5.9  widmet  sich  auch  hier  der  grafischen 
Visualisierung  von  Tempo,  Rhythmus  und  Redeflufe,  wobei  die  akustisch  gewonnene  In¬ 
formation  mit  der  auditiven  Information  des  Untersuchers  geeignet  verschrankt  werden 
soli,  Da  jetzt  eowohl  zwei-  als  auch  dreisiibige  Zielworte  vorkommen,  wurde  an  dieser 
Stelle  fiir  beide  Grafiken  entlang  der  Abszisse  ein  festes,  aquidistantes  Raster  mit  10 
Zielsilben  gewiihlt,  wobei  fiir  die  beiden  Gruppen  mit  zweisilbigem  Zielwort  die  nicht 
existierende  Zielsilbe  Nr.  7  (das  wSre  die  dritte  Silbe  des  Zielwortes)  unberiicksichtigt 
bleibt. 

Im  oberen  Teil  des  Auswertungsblattes  sind  fur  jede  der  3  Gruppen  die  mittleren  Sil- 
bendquern  in  der  Dimension  ms  iiber  der  entsprechenden  Silbe  aufgetragen.  Diese  Werte 
zeigen  nun  an,  wie  viel  Zeit  fiir  die  betreffende  Silbe  im  Mittel  aufgebracht  wurde,  Der 
resultierende  Verlauf  jeder  Gruppe  ist  hier  in  einer  eigenen  Farbe  dargestellt  gemafi  der 
unten  rechts  dargestellten  Legende. 

Das  hier  gezeigte  Beispiel  gem.  Abbildung  5.9  entstammt  ebenfalls  einer  Untersuchung 
an  einem  Patienten  mit  Sprechapraxie-Syndrom.  Auch  hier  ist  deutlich  der  Unterschied 
in  den  Silbendauern  fiir  die  nicht  akzentuierten  Silben  /te/  und  /die/  gegeniiber  Silben 
mit  Haupt-  oder  Nebenakzent  (z.B.  /kann/)  erkennbar.  Die  eingeblendete  gestrichelte 
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Abbildung  5.9.;  Auswertung  zum  Modul  SATZPRODUKTION.  Gesamtdarstellung  fiir 
alle  3  Zielwortkomplexitaten,  Blatt  1 

Linie  zeigt  den  Durchschnifctswert  der  Silbendauer  iiber  alle  realisierten  Silbeii  aller  24 
Testsatze  (Grand  Average),  hier  228ms. 

Die  am  oberen  Rand  dargestellte  Tabelle  gibt  auch  hier  an,  bei  welcher  Silbe  und  dort 
mit  welcher  absoluten  Haufigkeit  Phonetische  Entstellungen  (PE),  Phonematische  Para- 
phasien  (PP)  und  Elisionen  (EL)  innerhalb  der  Satze  festgestellt  wurden.  Damit  erbffnet 
sich  dem  Untersucher  die  Mdglichkeit,  quantifizierbare  Aussagen  beziiglicli  der  Ursachen 
unfllissiger  Satzproduktion  zu  treffen. 

Im  unteren  Teil  des  Auswertungsblattes  sind  die  Silbenstartzeitpunkte  in  ihrer  relativen 
zeitlichen  Lage  bezogen  auf  die  Gesamtdauer  der  Aufterung  aufgetragen.'  Damit  beginnt 
jede  Kurve  mit  der  ersten  Silbe  bei  dem  Wert  0  und  endet  bei  der  letzten  Silbe  mit 
einem  Wert  kleiner  als  100  Prozent  (Startzeit  der  letzten  Silbe  liegt  kurz  vor  dem  Ende 
der  Aufierung).  Durch  diese  Art  der  Darstellung  wird  der  bei  Sprechgesunden  naherungs- 
weise  lineare  Silben-  bzw.  Redeftuft  grafisch  visualisiert,  jede  Flufistorung,  z.B.  durch  die 
fiir  Sprechapraktiker  typischen  Zogerphanomene  (meist  unmittelbar  vor  dem  Zielwort), 
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tritt  deiitlich  durch  I<nic]?e  ini  Kurvenverlauf  hervor.  In  deni  gezeigten  Beispiel  eines 
Sprecliapraktikers  zogert.  der  Patient  vor  den  koinplexen,  zweisilbigen  Zielwortern  niit 
Konsonantcluster  besonders  stark. 

Das  Menii  DRUCKEN  stellt  diverse  Varianten  der  Druckausgabe  zur  Verfiigung,  wie 
Farbdruck,  Schwarz- WeiE-Druck  oder  Kopie  in  die  Zwischenablage  fur  die  weitere  Ver- 
wendung  in  klinischen  Bericliten  iisw. 

Eine  Wiedergabeinciglichkeit  wurde  liier  niclit  implementiert,  da  nur  geniittelte  Kurven 
dargestellt  werdcn  und  damit  keine  perzeptiv/visuelle  Korrelation  der  Daten  fiir  den  Un- 
tersucher  sinnvoll  erscheint. 

Das  zweite  Auswertungsblatt  gem,  Abbildung  5.10  stellt  dem  Untersucher  in  Analogie 
zur  vorhergehenden  Au.swertung  gem.  Abbildung  5.7  auf  Seite  132  die  drei  bescliriebenen 
Parameter 

•  PAUSENQUOTIENT, 

•  ITERATIONSQUOTIENT, 

•  ADDITIONSQUOTIENT 

dar,  jetzt  jeweils  gemittelt  innerhalb  aller  Testsatze  einer  Ziehvortkomplexitat. 

Im  konkreten  Beispiel  ist  der  Additionsquotieut  fiir  die  Gruppe  der  komplexen,  zweisil¬ 
bigen  Zielworte  erlioht.  Diese  Information  laftt  im  Zusammenhang  mit  den  beobachteten 
Zogerphanomenen  unmittelbar  vor  dem  Zielwort  den  SchluE  zu,  daft  an  dieser  Stelle 
jeweils  iinnotige  Silben  liinzugeftigt,  nicht  aber  iteriert  werden.  Die  Ursaclie  der  ver- 
langsamten  Satzproduktion  liegen  hier  also  in  einem  artikulatorischen  Suchverhalten  des 
Patienten  bei  Koiifrontation  niit  neuen  und  schwierig  zu  artikulierenden  Wortern  be- 
griindet. 

Das  dritte  und  letzte  Auswertungsblatt  gem.  Abbildung  5.11  zeigt  in  der  linken  Halfte 
die  Statistik  iiber 

•  SILBENFEHLER:  Iterationen  (IT),  Additionen  (AD)  bzw.  Elisionen  (E>), 

•  SEGMENTALB  FEHLER;  Phonetische  Entstellungen  (PE)  oder  Phonematische 
Paraphasien  (PP), 
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Abbilclung  5.10.:  Auswertung  zum  Modul  SATZPRODUKTION.  Gesamtdarstellung  fiir 
alle  3  Zielwortkomplexitaten,  Blatt  2 

•  ZEITASPEKTE;  Mittlere  (Netto-)Silbendauer,  mittlere  Nettosilbenrate  und  mitt- 
lere  Bruttosilbenrate, 

berechnet  bzw.  gemittelt  iiber  alle  24  Testsatze. 

In  der  rechten  Bildhalfte  sind  die  iiber  alle  3  Zielwortkomplexitaten  gemittelten  Pausen-, 
Iterations-  und  Additionsquotienten  mit  farbigen  Balken  visualisiert.  Siehe  hierzu  auch 
die  Interpretation  auf  Seite  131  und  die  vorhergehende  Einzeldarstellung  in  Abbildung 
5.7. 

5. 2. 3. 3.  Automatischer  Datenexport 

Mit  Aufruf  einer  Einzelauswertung  gem.  5.2.3. 1  auf  Seite' 129  und  damit  synchron  zur 
Darstellung  des  jeweils  ersten  Auswertungsblattes  gem.  Abbildung  5.6  wild  automatisch 
ein  Datenfile  mit  alien  relevanten  Ergebnissen  fiir  die  betrachtete  Zielwprtkomplexitat 
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Abbiklung  5.U.;  Auswertung  zum  Modul  SATZPRODUKTION.  Gesamtdarstelluiig  fiir 
alle  3  Zielwortkomplexitaten,  Blatt  3 


ill!  entsprechenden  Arbeitsverzeichnis  angelegt.  Das  Datenfile  ist  ASCII-codiert  und  da- 
init  universell  zur  weitereii  Nutzuiig  oder  Weiterverarbeitung  mit  alternativen  Software- 
produkten  einsetzbar.  Der  Filename  ist  an  der  Endung  ..enl.txt  /  ..en2.txt  /  ..en3.txt 
identifizierbar  je  nach  Zielworttyp. 

Das  Datenfile  entlialt  ein  ZahlenfeM  in  Matrixdarstellung,  wobei  jeder  realisierte  Testsatz 
einer  separaten  Matrixzeile  zugeordnet  ist,  Jede  Zeile  enthalt  dabei  in  den  ersten  beiden 
Feldern  (Spalten)  folgende  Informationen: 


•  Feld  01:  Ziehvortkomplexitat,  codiert  gem.  Tabelle  5.1, 

•  Feld  02:  Zielwort,  codiert  gem.  Tabelle  5.2. 


Pro  Zielsilbe  der  laufenden  Nummer  i  (bei  den  Zielwortkomplexitaten  1  und  2  gilt 
i  =  1 . . ,  9,  bei  Zielwortkomplexitat  3  eiitsprechend  i  =  1 ...  10)  wird  nun  jeweils  ein  3- 
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elementiger  Daten-Record  angehangt.  Damit  ergeben  sich  fur  die  Felder  Nr.  3i . . .  3?  +  2 
die  folgenden  Belegungen: 

•  Feld  3i  +  0:  Relative  Startzeit  der  Zielsilbe  Nr.  i  in  Prozent, 

•  Feld  3i  +  1:  (Netto-)Silbendauer  der  Zielsilbe  Nr.  i  in  ms, 

•  Feld  3z  +  2:  Silbenattribut  der  Zielsilbe  Nr.  i,  codiert  gem.  Tabelle  5.3. 

Bei  der  Interpretation  des  Silbenattributes  ist  zu  beachten,  daft  Zielsilben  ini  Sinne  der 
Definition  keine  wiederholten  (Attribut  IT)  oder  hinzugefiigten  Silben  (Attribut  AD) 
sein  konnen.  Siehe  hierzu  auch  Seite  125.  Zusatzlich  zu  den  in  Tabelle  5.3  aufgefiihr- 


Zielwortkomplexitat 

Code 

Zweisilbige  Worter  mit  einfacher  Konsonant-Vokal-Struktur 

1 

Zweisilbige  Worter  mit  Konsonant-Cluster 

2 

Dreisilbige  Worter 

3 

Tabelle  5.1.:  Identifizierung  def  Zielwortkomplexitat  anhand  der  Codierung  im  Feld  01 
des  Datenfiles  zum  Modul  SATZPRODUKTION. 


Zielwort  (Typl) 

Zielwort  (Typ2) 

Zielwort  (Typ3) 

Code 

Krauze 

Pakete 

1 

Platte 

Tapete 

2 

Knopfe 

Zigarre 

3 

Pute 

Polster 

‘  Gitarre 

4 

Tube 

Triimpfe 

Trompete 

5 

Klunker 

Sandale 

6 

Bretter 

Tablette 

7 

Bude 

Pflanze 

Baracke 

8 

Tabelle  5.2.:  Identifizierung  des  Zielwortes  anhand  der  Codierung  im  Feld  02  des  Daten¬ 
files  zum  Modul  SATZPRODUKTION. 

ten  Silbenattributen  sind  auch  Doppelattribuierungen  fiir  Phonetische  Entstellungen  bei 
gleichzeitiger  Phonematischer  Paraphasie  moglich.  Die  Codes  ergeben  sich  in  diesem  Falle 
durch  Kombination  der  beiden  Einzelcodes  fiir  PE  (an  erster  Stelle)  und  PP  (an  zweiter 


139 


5.  ReaUshnnig  cles  Moduls  SATZPRODUKTION 


Silbenattribut 

Code 

Regulare  Zielsilbe  (ohne  Attribut) 

1 

Elision  E> 

0 

Verschmelzung  VE 

4 

Phonetische  Entstellung  (nur  Onset)  PEI 

Phonetische  Entstellung  (Onset  und  Rhyme)  PE2 

7 

Phonematische  Paraphasie  (nur  Onset)  PPl 

8 

Phonematische  Paraphasie  (Onset  und  Rhyme)  PP2 

9 

Tabelle  5.3.:  Identifizierung  des  vergebenen  Silbenattributs  fiir  die  Silbe  Nr.  i  anhand  der 
Codierung  im  Feld  3r  +  2  des  Datenfiles  zum  Modul  SATZPRODUKTION. 

Stelle),  d.h,,  die  Kombination  aus  PEI  und  PP2  ergabe  dann  beispielsweise  den  Code 
G9. 

Die  Matrix  entlialt  noch  6  weitere  Spalten  bzw.  Felder.  Da  die  Testsatze  mit  Zielwort- 
komplexitat  1  und  2  au.s  jeweils  9,  die  Testsatze  mit  Zielwortkomplexitat  3  hingegen  aus 
10  Zielsilben  bestehen,  ergeben  sich  Eintrage  in  die  Felder  30...  35  bzw.  33 . . .  38  nach 
folgeiuler  Konvention: 

•  Feld  30  bzw.  33:  Additionsquotient, 

•  Feld  31  bzw.  34:  Anzahl  addierter  Silben  bzw.  vergebener  Attribute  AD, 

•  Feld  32  bzw.  35:  Iterationsquotient, 

•  Feld  33  bzw.  36;  Anzahl  iterierter  Silben  bzw.  vergebener  Attribute  IT, 

•  Feld  34  bzw.  37:  Pausenquotient, 

•  Feld  35  bzw.  38;  Gesamtdauer  der  AuBerung  in  ms. 
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5.3.  Technische  Realisierung:  Entwickelte  Verfahren  und 
Algorithmen 


Die  technische  Aufgabenstellung  liegt  in  dem  Modul  SATZPRODUKTION  in  der 


•  akustischen  Analyse  des  Zeitmusters  der  Satzproduktion  bei  gleichzeitig 

•  auditiver  Analyse  nach  phonetischen  und  phonematischen  Fehlern. 


Unter  Zeitmuster  soil  im  Folgenden  die  Information  uber  die  zeitliche  Lage  von  Silben- 
kernen  und  Silbengrenzen  verstandeu  werden.  Der  Lbsungsansatz  zur  Analyse  des  Zeit¬ 
musters  fuhrt  in  das  Gebiet  der  Spracherkennung,  da  hier  unabhangig  vom  gewahlten 
ErkennungsprozeS  bereits  in  der  Vorverarbeitungsstufe  die  Problematik  der  Halbsilben-, 
Silben-  oder  Einzelwortsegmentierung  stets  betrachtet  werden  niuft  ([Lea80]). 

Die  Erkennung  von  Silbengrenzen  streift  zusatzlich  eine  typische  Problematik  der  Biosi- 
gnalverarbeitung,  namlich  die  korrekte  Detektion  von  Nutzsignalen  (hier  sind  es  Silben) 
in  verrauschter  Signalumgebung  (hier  im  wesentlichen  gepragt  durch  das  Aufzeichnungs- 
system  Soundkarte/Rechner).  Von  Interesse  ist  hier  die  Beantwortung  der  Frage,  wann 
sich  mefibare  akustische  Signalparameter  deterministisch  und  signifikant  andern  bei  einer 
gleichzeitig  moglichst  hohen  Robustheit  gegeniiber  stochastischen  Signalveranderungen 
z.B.  durch  Rauschpeaks,  Gerauschartefakte  usw. 

Die  Verschrankung  der  akustisch  basierten  Information  beziiglich  des  Zeitmusters  einer- 
seits  mit  der  auditiv  basierten  Information  beziiglich  segmentaler  und  suprasegmentaler 
Fehler  andererseits  stetlen  eine  weitere  Herausforderung  an  die  Realisierung  des  Modules 
dar.  Nur  durch  Verkniipfung  und  parallels  Betrachtung  beider  Informationsebenen  ist  es 
moglich,  eine  quantifizierbare  Aussage  bezuglich  der  Ursachen  und  grundlegender  Cha- 
rakteristika  einer  gestorten  Satzproduktion  zu  treffen. 

Gleichzeitig  muS  vom  System  eine  synchrone  Gberwachung  bzw,  Plausibilitatspriifung 
dieser  verkniipften  Informationeu  realisiert  werden,  da  weder  Fehler  in  der  automati- 
sclien  Silbendetektion  noch  in  der  manuellen  Eingabe  auditiver  Merkmale  auf  Grund  der 
Gefahr  von  Fehlinterpretationen  unerkannt  bzw.  unkorrigiert  bleiben  diirfen. 
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5.3.1.  Detektion  von  Silbenkernen,  Silbengrenzen  und  Sprechpausen 

Der  vorgestellte  Segmentierungsalgorithmus  fu£t  auf  einer  von  RUSKE  und  BEHAM 
in  [Riis92]  vorge!=!tellten  Vorveiarbeitung  dvirch  Berechnung  der  modifizierten  Lautheits- 
funktio7i.  Durch  Anwendung  dieses  Verfahrens  entstehen  Parameter-Zeitverlaufe,  die  die 
inenschliche  Lautheitseinpfindung  iiber  eine  Modellierung  der  physiologischen  Vorgange 
im  Gehor  naclibilden  und  damit  fiir  die  algorithmische  Silbensegnientierung  eine  optiinale 
DetektJonsgrundlage  bereitstellen. 


5.3.1. 1.  Psychoakustlsche  Grundlagen  des  Horens 

Zunach.st  niufi  an  dieser  Stelle  erlauternd  auf  die  psychoakustischen  Grundlagen  des  Ho¬ 
rens  eingegangen  werden. 

Die  inenschliche  Sin  achwahrnehinung  wertet  Schallsignale  aus,  die  auf  unser  Gehororgan 
treffen.  Hier  werden  akustische  Schallwellen  in  Wanderwellen  entlang  der  Basilarmenv 
bran  in  der  Gehorschnecke  umgewandelt.  Da  der  Ort  der  maximalen  Auslenkung  auf  der 
Basilarinembran  von  der  Piequenz  abhangig  1st,  findet  dort  in  erster  Linie  eine  spektrale 
Zerlegung  de.s  Schallsignales  in  seine  Piequenzanteile  statt.  Die  Sinneszelleu  (Haarzellen) 
sovvie  die  neuronale  Verarbeitung  werden  dafur  verantwortlich  gemacht,  dafi  die  Prequenz- 
selektivitat  gegeniiber  der  begrenzten  Wirksamkeit  der  reinen  niechanischen  Auslenkung 
wesentlich  verbessert  wird  ({Nil78]). 

HELMHOLTZ  erarbeitete  bereits  1863  die  sogenannte  Ortstheorie,  nach  der  ein  Ton  im 
Innenohr  eine  Reizverteilung  langs  des  CORTIschen  Organs  hervorruft,  welche  an  einer 
init  der  Tonfrequenz  eindeutig  zusammenhangenden  Stelle  ein  Maximum  hat  ([Hell863]). 
Nach  diesem  Prinzii-)  des  adaquaten  Reizes  ([Muel840])  gehort  zu  jeder  Stelle  des  COR¬ 
TIschen  Organs  eine  Tonhohenempfindung  (Tonotopie). 

Diese  Theorie  hat  sich  im  Laufe  der  Zeit  als  unzulanglich  erwiesen.  Es  wurden  Tonho- 
henphanomene  bekannt,  welche  die  Ortstheorie  nicht  erklaren  kann.  Bin  im  Bereich  der 
alltaglichen  Erfahrung  liegendes  Beispiel  hierfiir  ist  die  Wahrnehmung  der  menschlichen 
Stimme  am  Telefon,  obgleich  die  Grundfrequenzen  der  meisten  stimmhaften  Klange  un- 
terhalb  von  300  Hz  liegen  und  damit  nicht  iibertragen  werden.  Tiotzdem  nimmt  das 
inenschliche  Gehor  die  Stimme  des  Gesprachpartners  in  ihrer  natiirlichen  Tonlage  wahr. 
Die  Arbeiten  von  TERHARDT  erweitern  und  erganzen  die  klassische  Vorstellung  der 
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Tonhohenwahrnehmung  urn  weitere  Annahnien,  die  sich  auf  Beobachtungsergebnisse 
stiitzen  ([Ter72]).  Er  unterschied  zwischen 

•  reinen  Tonen,  deren  Tonhohe  sich  nacli  der  HELMHOLTZschen  Ortstheorie  ver- 
standlich  machen  lasst,  und 

•  komplexen  Tonen,  deren  Klangtonhohe  a!s  ein  sekundares  Wahrnehmungsattribut 
aufgefaiJt  werden  kann,  welches  aus  den  Einzeltonen  dominanter  Harmonischer  ab- 
geleitet  ist. 

5.3. 1.2.  Funktionsmodell  der  Lautheitsempfindung 

Aufbauend  auf  den  Erkenntnissen  von  HELMHOLTZ  und  TERHARDT  stellte  VOOEL 
ein  Funktionsmodell  der  Lautheit  vor,  mit  deasen  Hilfe  sich  die  Verteilung  der  Lautheit 
liber  der  Prequenz  bzw.  der  psychoakustischen  EnipfindungsgrolSe  Tonheit  nachbilden 
lafit  ([Vog75]). 

Grundlegende  Schritte  hterfiir  sind  die 

•  Ti-ansformation  der  Prequenz  in  die  psychoakustische  Empfindungsgrofie  Tonheit 
sowie  die 

•  Transformation  des  Schalldruckes  in  die  psychoakustische  EinpfindungsgrolJe  Laut¬ 
heit. 

Als  Ausgangspunkt  hierfiir  dient  die  spektrale  Zerlegung  des  gesamten  horbaren 
Bereiches  in  24  Prequenzgruppen  nach  ZWICKER  ((Zwi61]).  Das  Ergebnis  ist  eine 
nichtlineare  Fieciuenzskala,  die  als  Tonheit  z  bezeichnet  wird. 

Das  Funktionsmodell  der  Lautheit  nach  VOGEL  ([Vog75])  beriicksichtigt  zusatzlich  die 
zeitlichen  Integrationseffekte  der  Vor-  und  Nachverdeckung  ([Zwi77j).  Es  erlaubt  somit 
die  Nachbildung  des  aus  der  Psychoakustik  bekannten  Phanomens,  daU  leise  Tone  von 
vorausgegangenen  lauten  Tonen  verdeckt  und  nicht  wahrgenommen  werden. 

RUSKE  und  BEHAM  schlagen  in  [Rus92]  vor,  auf  diese  Modellierung  der  zeitlichen 
Effekte  zu  verzichten  und  dadurch  die  weitere  Berechnung  erheblich  zu  vereinfachen. 
Damit  wird  nur  noch  die  spektrale  Auflosung  bei  der  Gewinnung  der  Erregungsverteilung 
beriicksichtigt.  Zusatzlich  werden  hier  handhabbare  und  relativ  leicht  implementierbare 
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Berechnungsverfahren  beschrieben,  welche  bei  cler  Realisierung  des  MODIAS-Moduls 
SATZPRODUKTION  weitgehend  umgesetzt  wurden. 

Die  Berechnung  der  gesucht.en  und  von  RUSKE  und  BEHAM  vorgeschlagenen 
Paranieter-Zeitverlaufe  der  liautheit  N(t)  und  der  modifizierten  Lautheit  Nm{t)  lafit 
sicli  funktional  in  folgende  Schritte  untergliedeni: 

•  Schatzung  von  Kurzzeit-Leistungsdichtespektren  bzw.  Berechnung  der  physikali- 
schen  Leisfcungsdicliteverteilung 

•  Aiifteilung  des  Leistungsdichtespektrums  P{f,t)  in  i=22  gehorrichtige  Prequenz- 
gruppen  Zi, 

•  Berechnung  der  psychoakustischen  Erregungsverteilung  E{zi,i)  durch  Nachbildung 
spektraler  Integrationseffekte, 

•  Uinrechnung  von  der  Erregungsverteilung  E{zi,t)  auf  die  Lautheitsverteilung 
N'izut), 

•  Berechnung  der  Lautheit  N{t)  und  der  modifizierten  Lautheit  Nm{t)  durch  Line- 
arkoinbinationen  von  Elementen  der  Lautheitsverteilung  N'{zi,t). 


SchStzung  von  Kurzzeit-Lelstungsdlchtespektren  und  Frequenz- 
Tonheitstransformatlon:  Das  hler  uingesetzte  Verfahren  zur  Schatzung  des  Lei- 
stungsdichtespektrums  basiert  auf  Anwendung  der  diskreten  Fourier- TVansformation 
(berechnet  nach  dem  Fast-Fourier-Transformationsalgorithmus  FFT)  und  anschlie- 
fiender  Quadrierung  der  resultierenden  spektralen  Amplitudendichte.  Wie  bei  jedem 
Kurzzeit-Analyseverfahren  muS  dabei  zunachst  durch  Anwendung  einer  geeigneten 
Fensterfunktion  ein  zeitlich  begrenztes  Signalseginent  entnommen  werden,  wodurch  die 
Schatzung  des  Leistungsdichtespektrums  verfalscht  wird.  Dieser  EinfluR  wird  durch  eine 
geeignete  Skalierung  kompensiert. 

Das  in  MODIAS  realisierte  Berechnungsverfahren  sieht  in  einem  ersten  Schritt  die 
Aufteilung  der  gesainten  Aufzeichnung  (Samplingrate  22050  Hz  /  Aufiosung  16  Bit) 
in  Segmente  zu  je  512  Samples  bei  einer  zeitlichen  Uberlappung  von  50  Prozent  bzw. 
256  Samples  vor.  Fiir  jedes  dieser  Segmente  wird  ein  Leistungsdichtespektrum  nach  der 
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dargestellten  Berechnungsmethode  unter  Nutzung  von  Hamming-Fenstern  ermittelt. 

Die  Prequenzstutzstellen  der  errechneten  Leistungsdichtespektren  sind  zuiiachst  noch 
aquidistant  auf  einer  linearen  Frequenzskala  verteilt.  Abbildung  5.12  zeigt  ein  typisches 
Leistungsdichtespektrum  am  Beispiel  eines  Vokals. 


Abbildung  5.12.:  Typisches  Leistungsdichtespektrum  eines  Signalsegmentes  des  Vokals  i 
nach  entsprechender  Berechnung  der  Fast-Fourier-Transformation.  Die 
Prequenzachse  ist  linear  skaliert,  die  FVequeiizstutzstellen  des  Spek- 
trums  sind  aquidistant  entlang  der  R-equenzskala  verteilt. 

Die  geforderte  Fiequenz-Tonheitstransformation  erfolgt  durch  Umskalierung  der  Fte- 
quenzachse  /  in  die  Tonheitsache  z.  Der  funktionale  Zusammenhang  zwischen  Fi'equenz 
und  Tonheit  ist  z.B.  in  [Zwi82]  angegeben,  siehe  hierzu  auch  Formel  7.3  auf  Seite 
224.  Durch  diese  Umskalierung  wird  das  Frequenzspektrum  nichtlinear  entlang  der 
Frequenzachse  gespreizt,  siehe  hierzu  Abbildung  5.13.  Wie  auch  beim  menschlichen 
Gehor  ist  dadurch  die  Frequenzauflosung  bei  niedrigen  Fiequenzen  erhoht  und  bei  hohen 
Fiequenzen  vermindert. 

Im  nachsten  Schritt  erfolgt  die  Einteilung  der  Tonheitsachse  in  i  =  1 ...  22  gehdrrichtige 
Frequenzbander  bzw.  Kanale.  Der  Tonheitsbereich  z  =  i—1  ...i  bildet  dabei  jeweils  das 
Frequenzband  i.  Die  Tabelle  7.1  auf  Seite  254  stellt  alle  Bander  mit  ihren  gem.  Formel 
7.3  definierten  unteren  und  oberen  Frequenzgrenzen  orientierend  dar. 

Durch  Kanalbildung  entstehen  damit  aus  jedem  der  ursprunglichen  Leistungsdichte¬ 
spektren  22  Frequenzgruppen-Spektren,  deren  spektrale  Verteilung  jedoch  noch  auf  die 
tatsachliche  Erregungsverteilung  des  menschlichen  Gehors  umgerechnet  warden  mu6. 
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Abbilclung  5.13  zeigt  daa  umskalierte  Leistungsdichtespektrum  (vgl.  Abbildung  5.12) 
mit  den  resnltierenden  Kanalgrenzen. 


z(Berk] 


Abbildung  5.13.:  Gegemiber  Abbildung  5.12  umskalieites  Leistungsdichtespektrum  eines 
Signalsegraentes  mit  nichtlinearer  Tonheitsskala  und  damit  nicht  mehr 
aquidistanter  Verteilung  der  Fiequenzstiitzstellen.  Zusatzlich  sind  die 
Kanalgrenzen  der  Bander  1 ...  22  eingezeichnet. 


Berechnung  der  psychoakustischen  Erregungsverteilung  und  Erregungs-Lauthelts- 
Transformation:  Die  Erregung  E  ist  eine  psychoakustische  Empfindungsgrofie;  sie  wild 
meist  logarithmiert  als  Erregungspegel  Le  angegeben  ((Zwi67]).  Die  Verteilung  des  Er- 
regungspegels  Le  uber  der  Tonheit  z  lalSt  sich  dutch  Faltung  des  Prequenzgruppen- 
Spektrums  mit  einer  Schablone  berechnen,  die  der  Verteilung  der  spektralen  Energie 
einer  Piequenzgruppe  entspricht.  In  erster  Naherung  kann  die  Form  der  Schablone  als 
dreieckig  angenommen  werden,  wobei  die  Flanke  zu  tieferen  Prequenzen  etwa  25dB/Bark 
und  der  Abfall  zu  hoheren  Ftequenzen  etwa  -lOdB/Bark  betragt  (Abbildung  5.14). 
Die.?e  Form  der  Schablone  ist  unabhangig  von  der  Lage  auf  der  Tonheitsachse,  wobei 
die  vorhandene  leichte  Abhangigkeit  vom  Schallpegel  bei  Anwendungen  in  der  automa- 
ti.schen  Spracherkennung  meist  vernachlassigt  wird  ([Rus92]). 

Zur  konkreten  Berechnung  wird  als  reprasentative  Schablone  der  experimentell  ermittelte 
Erregungspegel  LE^f,jf^{z)  herangezogen,  der  sich  bei  einer  Anregung  des  mensclilichen 
Gehors  mit  Schmalbandrauschen  der  Mittenfrequenz  1000  Hz  und  einem  Schallpegel  von 
60  dB  einstellt  ((Zwi82]). 
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Abbildung  5.14.:  Verwendete  Scliablone  zur  Modellierung  der  spektralen  Maskierungsef- 
fekte  des  nienschlichen  Gehors  gem.  (Zwi82] 

Die  Erreguiigeverteilung  E{zi)  ergibt  sich  durch  Verschiebung  an  die  Stelle  Zi  der  Ton- 
heitsachse. 

Die  so  berechnete  Verteilung  des  Erregungspegels  Le{z)  reprasentiert  damit  insgesamt 
sowobl  die  hydromechanische  als  auch  die  neuronale  Vorverarbeitinig  des  Gehors. 

Da  die  Faltungsoperation  fiir  alle  22  Prequenzgruppenspektren  durchgefiihrt  werden  mu6, 
ist  hier  die  Einfiihrung  einer  Schablonen-Matrix  M  sinnvoll.  Betragt  die  Lange  der  FFT 
N=512,  dann  ist  aus  Symmetriegriinden  die  Breite  der  Leistnngsdichtespektren  gleich 
N/2+1  bzw.  257.  Die  Spalten  j  der  Schablonen-Matrix  M  sind  jeweils  den  entsprechenden 
Komponenten  des  Leistnngsdichtespektrums  P{fj)  an  den  diskreten  Preqnenzstutzstel- 
len  fj  =  jAf  mit  0  <  j  <  256  zugeordnet. 

Eine  Zeile  i  der  Matrix  beschreibt  die  Form  der  Schablone  zur  Berechnung  eines  Wertes 
der  Erregungsverteilung  mit 

N/2 

Ei  =  E[zi)  =  Y^MiiPUj)  (5.1) 

Die  Zeilen  der  Schablonen-Matrix  stellen  damit  eine  Schar  von  Schablonen  dar,  die  je¬ 
weils  auf  der  Tonheitsachse  verschoben  sind.  Zu  beachten  ist  hierbei,  daK  die  Schablonen 
fiir  die  Berechnungsweise  nach  Gleichung  5.1  beziiglich  Amplitude  und  Fiequenz  linear 
skaliert  sein  miissen. 

Abbildung  5.15  zeigt  beispielhaft  die  Matrixzeilen  bzw.  Schablonen  fiir  die  Bark-Bander 
10,  15,  20  und  22  (von  links  nach  rechts)  auf  linearer  Prequenz-  und  Amplitudenskala. 

Nach  Anwendung  der  Faltungsoperation  bzw.  der  Matrixmultiplikation  gem.  Glei¬ 
chung  5.1  ist  also  aus  jedem  urspriinglich  frequenzskalierten  Leistungsdichtespektrum 
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Alibildung  5.15.:  Schablonen,  die  fiir  die  Tiansformation  von  Fl-equenzgruppenspektren 
auf  Prequenzgruppen-Erregungsverteilungen  verwendet  werden  und  da- 
mit  die  spektralen  Maskierungseffekte  des  menschlichen  Gehors  nach- 
bilden,  Hier  dargestellt  die  Schablonen  fiir  die  Bark-Bander  10,15,20 
und  22,  jedoch  gegeniiber  Abbildung  5.14  beziiglich  beider  Achsen  line¬ 
ar  skaliert. 

der  Lange  256  jeweils  eine  tonheitsskalierte  Erregimgsverteilung  der  Lange  22  ent- 
standen.  Die  Bereclinung  der  Kanalgrenzen  ist  auf  Seite  224  ausfiihrlich  dargestellt. 
Abbildung  5.16  zeigt  die  resultierende  Erregimgsverteilung  (vgl.  auch  mit  Abbildung 
5.13). 

Die  Lautheitsempfindung  eines  Schallsignales  hangt  sowohl  vom  Schallpegel  als 
auch  von  dessen  spektraler  Verteilung  ab,  Grundsatzlich  kann  die  Lautheit  N  als  Inte¬ 
gral  iiber  die  spezifische  Lautheit  N  (z)  entlang  der  gesamten  Tonheitsachse  berechiiet 
werden  ([Zwi67]).  Im  Falle  einer  wie  hier  diskreten  Erregungsverteilung  wird  die  Lautheit 
N  als  Summe  der  spezifischen  Lautheitskomponenten  fiber  alle  i  Frequenzgruppen 
bestimmt.  i 

Wird  der  Einfluft  der  Ruhehorschwelle  vernachl^sigt,  laftt  sich  die  spezifische  Lautheits- 
komponente  aus  der  Erregung  Ei  durch  folgenden  Zusainmenhang  berechnen: 

N'i  ~  Ei  (5.2) 

Durch  Anwendung  des  Potenzgesetzes  entstehen  somit  fiber  eine  einfache  Umskalierung 
der  Amplitudenachse  aus  den  22  Komponenten  der  Erregungsverteilung  Ei  die  22  spezi¬ 
fischen  Lautheitskomponenten  A^,^ 
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Abbildung  5.16.:  Erreguiigsverteilung  eines  Signalsegmentes  iiber  die  22  geliorrichtigen 
Tonheitskanale.  Durch  die  beschriebene  Faltungsoperatlon  jedes  Fi-e- 
quenzgruppenspektrums  gem,  Abbildung  5.12  mit  der  Schablone  gem. 
Abbildung  5.14  bzw.  5.15  entsteht  pro  Kanal  ein  diskreter  Wert,  der 
mit  der  psychoakustischen  Erregung  des  menschlichen  Gehors  korre- 
spondiert. 

Werden  alle  diese  22  spezifischen  Lautheitskomponenten  aufsummiert,  entsteht  die 
(Gesamt')Lautheit  N  des  betrachteten  Signalsegmentes. 

5. 3. 1.3.  Lautheltsfunktlon  und  modifizterte  Lautheitsfunktion 

Bedingt  durch  die  Zeitvarianz  des  Sprachschalles  ist  die  spezifische  Lautheit  Nl{t)  wie 
auch  die  zugehorige  Lautheit  N{t)  eine  Funktion  der  Zeit.  Der  gesuchte  zeitliche  Laut- 
heitsverlauf  bzw.  die  von  RUSKE  und  BEHAM  vorgeschlagene  Lautheitsfunktion  N{t) 
la£t  sich  damit  annahern  als: 

24 

(6  3) 

t=i 

Die  modifizierte  Lautheitsfunktion  entsteht  als  Differenz  der  beiden  Teillautheiten  in  den 
Kanalen  i  =  3 ...  15  und  t  =  20 ...  22  gem,  [Rus94]: 

15  22 

^m(*)  =  E^((‘)-E^<(‘)  (6-^) 

»=3  i=20 
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Sie  bildet  die  Ausgangsbasis  fCir  die  Anzeige  der  Silbenkerne,  da  die  modifizierte 
Lautheifcsfunktion  aufgrund  der  Differenzbildung  gro£e  Werte  annlmmt,  weim  das 
Spektrum  des  Sprachsignales  im  mittleren  Prequenzbereich  verteilt  ist.  Dies  ist  vor  allem 
bei  Vokalen  der  Pall.  Energiereiche  FVikativ-  bzw.  Plosivlaute  werden  durch  die  negative 
Gewichtung  der  oberen  Prequenzkanale  gedampft. 

Wahrend  die  Lautheitsfunktion  in  der  dargestellten  Form  direkt  Anwendung  findet  und 
besonders  geeignet  fiir  die  Detektion  von  Silbengrenzen  ist,  wird  die  modifizierte  Laut¬ 
heitsfunktion  Nmit)  zusatzlich  mit  Hilfe  eines  Tiefpafifilters  geglattet.  Nach  Glattung 
konnen  die  vorhandenen  Maxima  dieser  Funktion  dann  unmittelbar  als  Kandidaten  fiir 
die  Silbenkerne  herangezogen  werden. 

Die  Auswahl  und  Dimensionierung  des  Glattungsfilters  stiitzt  sich  auf  experimen- 
telle  Untersuchungen  von  GEYWITZ  gem.  [Gey84].  Es  kann  auf  einfache  Weise  unter 
Verwendung  eines  elementaren  nichtkausalen  Tiefpai?filters  mit  rechteckiger  Impulsant- 
wort  realisiert  werden;  das  Ausgangssignal  N^ii)  zu  einem  Zeitpunkt  i  berechnet  sich 
aus  dem  Eingangssignal  Nm{i)  zu: 


■N,n{i)  =  -  1)  +  Nm{i)  +  Nmii  +  1))  (5.5) 


Wird  dieses  Filter  mehrmals  in  Reihe  geschaltet,  so  entsteht  eine  Impulsantwort,  die  mit 
wachsendem  Wiederliolungsfaktor  k  schlielSIich  die  Form  einer  Gaufi-Funktion  annimmt. 
Die  Anzahl  der  Kaskadierung  sollte  an  die  Sprechgeschwindigkeit  des  Patienten  ange- 
paiSt  werden.  Die  Untersuchungen  von  GEYWITZ  an  Normalsprechern  zeigen  ein  opti- 
males  Segmentierungsverhalten  eines  entsprechenden  Silbenerkenners,  wenn  die  modifi¬ 
zierte  Lautheitsfunktion  mit  einer  Wiederholungszahl  von  fc  =  7  geglattet  wurde.  Dieses 
Filter  wurde  daher  fur  unauffallige  Sprechtempi  mit  fc  =  7  in  MODIAS  implementiert. 
Zusatzlich  kann  hier  die  Wiederholungszahl  an  das  subjektiv  empfundene  Sprechtempo 
bei  Bedarf  angepalSt  werden. 

Abbildung  5.17  zeigt  die  nach  dem  beschriebenen  Verfahren  berechnete  Lautheitsfunkti¬ 
on  und  die  modifizierte  Lautheitsfunktion  fur  den  Satz  Ute  kann  die  Platte  bekommen. 
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Abbildung  5.17.:  Lautheitsfunktion  (oben)  und  modifizierte  Lautheitsfunktion  (unten) 
des  Satzes  Ute  kann  die  Platte  bekommen.  Letztere  eignet  sich  fiuf- 
grund  ihrer  Sensitivitat  fiir  Vokale  hervorragend  flir  die  Detektion  von 
Silbenkeruen. 

5. 3. 1.4.  Optimale  Detektion  von  Silbenkernen  und  Silbengrenzen 

Zur  optimalen  Detektion  der  Silbenkerne  eignet  sich  die  modifizierte  Lautheitsfunktion, 
also  die  Auswertimg  der  spektralen  Information  der  segmentweisen  Lautheitsverteihm- 
gen  ((Rus94]).  Ein  ahnliches  Verfahren  zur  Anzeige  der  Silbenkerne  wiirde  auch  in  [Rie81] 
vorgeschlagen. 

Bei  der  Realisierung  des  MODIAS-Moduls  SATZPRODUKTION  findet  hierzu  ein  Algo- 
rithmus  Anwendung,  der 

•  die  Zeitpunkte  samtlicher  lokalen  Maxima  im  Verlauf  der  modifizierten  Lautheits¬ 
funktion  detektiert, 

•  die  zugehorigen  modifizierten  Lautheiten  am  Ort  dieser  Maxima  mit  einem  empi- 
risch  ermittelten  Schwellwert  vergleicht  (Plausibilitatspriifung)  und  damit 

•  Kandidaten  fiir  Silbenkerne  bereitstellt. 

Werden  in  einem  ersten  Durchlauf  mehr  als  15  Kandidaten  fiir  die  Silbenkerne 
detektiert  (empirischer  Wert),  erfolgt  aiitomatisch  eine  Anpassung  der  sprechgeschwin- 
digkeitsabhangigen  Filterung  und  damit  eine  starkere  Glattung  der  modifizierten 
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Lautlieitsfunktioii. 

Hierbei  rediiziert  sich  erfahrungsgeniaB  die  Anzahl  der  Kandidaten  deutlich.  Wahrend 
bei  eiuem  Sprecligesunden  die  Anzahl  der  tatsachlich  realisierten  Silben  in  fast  alien 
Fallen  mit  9  bzw.  10  auf  Grund  des  angebotenen  Satzmateriales  vorhersagbar  ist,  muB 
bei  Patienten  mit  neurogenen  Storungen  mit  einer  erhohten  (Iterationen,  Hinzufugun- 
gen)  Oder  verminderten  Anzahl  (Elisionen)  gerechnet  werden. 

Die  Minima  im  korrespondierenden  Lautheitsverlauf  zeigen  mogliche  Stellen  fiir  Silben- 
grenzen  an  ([Rus94]).  Eine  ahnliche  Silbenabgrenzung  wird  auch  in  ([Merm75],(Hun80]) 
vorgenommen. 

An  dieser  Stelle  wurde  anf  Basis  der  Lautheitsfunktion  ein  Algorithmus  implementiert, 
der 


•  die  Zeitpunkte  samtlicher  lokaler  Minima  im  Verlauf  der  Lautheitsfunktion  detek- 
tiert, 

•  die  zugehoiigen  Lautheiten  am  Ort  dieser  Minima  mit  einem  statistisch  ermittel- 
ten  Schwellwert  vergleicht  (er  ergibt  sich  aus  dem  inherenten  Grundrauschen)  und 
damit 

•  sowohl  Kandidaten  fiir  Silbengrenzen  bereitstellt  als  auch  auftretende  Sprechpausen 
erkennt. 


Bei  der  Detektion  von  Silbengrenzen  ist  an  dieser  Stelle  zu  beachten,  da&  zwischen 
zwei  benachbarten  Silben  eine  Sprechpause  auftreten  kann,  diese  aber  nicht  immer 
auftreten  muft.  tJblicherweise  werden  Silbeniibergange  bei  normaler  Satzproduktion 
soweit  verschliffen,  da^  kein  signifikanter  Abfall  der  Lautheitsfunktion  und  damit  keine 
Pause  festgestellt  werden  kann. 

In  der  konkreten  Anwendung  sind  die  Sprechpausen  in  ihrer  zeitlichen  Dauer  dia- 
gnostisch  relevant,  sie  miissen  mbglichst  exakt  von  den  Silben  (also  Segmenten  mit 
artikulatorischer  Aktivitat)  unterschieden  werden,  Daher  wurde  das  Verfahren  gem. 
(Rus94]  entsprechend  modifiziert. 

Der  realisierte  Segmentierungsalgorithmus  berechnet  zunachst  aus  der  zu  jeder 
Aufzeichnungssitzung  erstellten  Stilleaufzeichnung  die  zugehorige  Lautheitsfunktion. 
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5.3.  Teclinische  Realisierung:  Biitwickelte  Verfahren  imd  Algorithmen 

Aus  diesem  Verlauf  wird  anschlieftend  statistisch  ein  Schwellenwert  ermifctelt,  dessen 
Uberschreitung  mit  hinreichender  Sicherheit  die  Ubergange  von  den  Sprechpausen  auf 
die  Bereicbe  artikulatorischer  Aktivitat  anzeigt.  Zur  Ennittlung  des  Schwellenwertes 
wird  fiir  die  Stilleaufzeichnung 


•  die  Wahrscheinlichkeitsdichtefunktion  des  Lautheitsverlaufes  iiber  ein  Histogramm- 
verfahren  geschatzt, 

•  die  Wahrscheinlichkeitsverteilungsfunktion  durch  Integration  aus  der  Wahrschein- 
lichkeitsdichtefunktion  berechnet  und 

•  die  Lautheit  detektiert,  bei  der  die  streng  monotone  Wahrscheinlichkeitsverteilungs- 
funktion  den  Wert  0.9  annimmt. 

Damit  definiert  der  gesuchte  Schwellwert  im  UmkehrschluR  diejenige  Lautheit,  die  nur 
mit  einer  Wahrscheinlichkeit  von  10  Prozent  von  dem  systemspezifischen  Gnmdrauschen 
liberschritten  wird  und  damit  mit  einer  Signifikanz  von  90  Prozent  von  artikulatorischer 
Aktivitat  herruhrt.  Abbildung  5.18  zeigt  die  Wahrscheinlichkeitsverteilungsfunktion  der 
Lautheit  fiir  eine  typische  Stilleaufzeichnung. 

Die  Minima  der  Lautheitsfunktion  wurden  bereits  berechnet,  sie  stehen  als  mogli- 
che  Kandidaten  fiir  die  Silbengrenzen  zur  Verfiigung.  Der  Segmentierungsalgorithmus 
unterscheidet  nun  die  beiden  Falle,  daR  jeweils  zwischen  2  aufeinanderfolgenden 
Silbenkernen 

•  genau  1  Silbengrenzenkandidat  zu  liegen  kommt,  der  eine  Lautheit  oberhalb  des 
zugehorigen  Schwellwertes  besitzt.  Damit  definiert  diese  Silbengrenze  das  Ende  der 
vorhergehenden  und  zugleich  den  Beginn  der  nachfolgenden  Silbe; 

•  mehr  als  1  Silbengrenzenkandidat  zu  liegen  kommt,  wobei  alle  eine  Lautheit  ober¬ 
halb  des  zugehorigen  Schwellwertes  besitzen.  Gewahlt  wird  aus  dieser  Menge  der 
Silbengrenzenkandidat,  der  die  geringste  Lautheit  besitzt  (absolutes  Minimum), 
Auch  hier  definiert  die  so  detektierte  Silbengrenze  das  Ende  der  vorhergehenden 
und  zugleich  den  Beginn  der  nachfolgenden  Silbe; 
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5.  Realisiening  des  Modvls  SATZPRODUKTION 


LButhsit(son9] 

Abbildung  5.18.:  Typische  Wahrscheinlichkeitsverteilungsfunktion  einer  Stilleaufzei- 
chung.  Gestrichelt  eingezeichnet  ist  die  Lautheit,  bei  der  die  Punktion 
den  Wert  0.9  anniinmt.  Dieser  Wert  wird  fiir  jede  Aufzeichnungssitzung 
aus  der  im  Untersuchungsprotokoll  enthaltenen  Stilleaufzeichnung  neu 
ennittelt.  Er  definiert  fiir  samtliche  Folgeaufzeichnungen  dieser  Sitzung 
den  Schwellwert  fiir  die  Detektion  von  Silbengrenzen. 

•  ein  Oder  inehrere  Silbeiigrenzenkandidaten  zu  liegen  kommen,  wobei  mindestens 
einer  von  diesen  eine  Lautheit  unterhalb  des  zugehorigen  Schwellwertes  besltzt. 
Der  Algorithmus  detektiert  die  Durchtrittspunkte  der  Lautheitsfunktion  durch  den 
Schwellwert  und  definiert  somit  fiir  den  Bereich  der  Unterschreitung  eine  Sprech- 
pause.  Die  linke  Grenze  dieser  Sprechpause  definiert  entsprechend  das  Ende  der 
vorhergehenden  Silbe,  die  rechte  Grenze  den  Beginn  der  nachfolgenden  Silbe. 

Abbildung  5.19  stellt  diese  Segnientierungslogik  an  einem  Beispiel  erlauternd  dar, 

5.3.2.  Akustische  Analyse  zeitlicher  Aspekte  der  Sprachproduktion 

Nach  AbschluK  der  automatischen  -  ggf.  auch  manuell  korrigierten  -  Segmentierung  sind 
die  Orte  der  Silbenkerne  und  der  Silbengrenzen  festgelegt.  Das  MODIAS-System  ist  auf 
akustischeni  Wege  prinzipiell  nur  in  der  Lage,  akustische  Ereignisse  mit  silbischem  Cha- 
rakter  zu  detektieren.  Die  Differenzierung  zwischen  storendem  Artefakt  und  einer  tatsach- 
lich  produzierten  Silbe  ware  fiir  Nonnsprecher  uber  ein  entsprechendes  Erkennungsver- 
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5.3.  Technische  Realisierung:  Entwickelte  Verfabren  und  Algorithmen 


Abbildung  5.19.:  Verlauf  der  Lautheitsfunktion  fur  die  ersten  3  Silben  des  Testsatzes  Ute 
kann  die  Tiite  bekommen.  Der  Schwellwert  (Threshold)  legt  dabei  den 
Pausenabschnitt  zwischen  /U/te/  und  /kann/  fest,  wahrend  zwischen 
den  Silben  /U/  und  /te/  nur  eine  Silbengrenze  ohne  Pause  erkannt 
wird. 


fahren  init  geringer  Fehiklassifikationsrate  inoglich,  jedoch  kann  diese  Differenzierung  bei 
Patienten  mit  neurogenen  Sprechstorungen  und  den  damit  verbundenen  akustischen  Va- 
riationen  wohl  nur  durch  den  Menschen  selbst  erfolgen.  Die  akustisdie  Analyse  zeitlicher 
Aspekte  der  Sprachproduktion  kann  bei  neurogenen  Sprechstorungen  erst  in  Verbindung 
init  der  auditiven  Analyse  segmentaler  Fehler  sinnvoll  interpretiert  werden. 

Fiir  die  folgende  Betrachtung  liege  eine  unauffallige  Satzproduktion  des  Testsatzes  Ute 
kann  die  Platte  bekommen  vor;  die  Segmentierung  in  N  Silben  (hier:  9)  sei  korrekt  er- 
folgt.  MODIAS  erstellt  fiir  jeden  Satz  eine  Silbenmatrix  S,  deren  Zeilen  mit  den  Silben 
i  =  1...N  korrespondieren.  Die  3  Spalten  beinhalten  die  detektierten  Zeitpunkte  fur 
Silbenbeginn  Silbenkern  {ti_2)  und  Silbenende  Per  definitionera  beginnt  jede 
Aufzeichnung  mit  der  ersten  Silbe  bei  t  =  0,  d.h.,  fiir  alle  weiteren  Betrachtungen  gilt 
=  0. 


5  = 


^^1,1  ^1,2  tl,3^ 

<2,1  <2,2  <2,3 

y<JV,l  <A^,2  <iV,.3  J 


{ 


0  <1,2  <1,3 


<2,1  <2,2  <2,3 

y<;v,l  <Af,2  <W,3  y 


(5.6) 
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5.  Realisienmg  des  Moduls  SATZPRODUKTION 


Die  in  cler  Auswertung  des  MODIAS-Modules  dargestellten  (Netto-)SILBENDAUERN 
ergeben  sich  durch  silbenweise  DifFerenzbildung  zwischen  den  Zeitpunkten  von  Silbenende 
und  Silbenanfang  bzw.  Tnettoi  =  ^t.3  — 

Daniit  entsteht  pro  Testsatz  aus  den  N  Nettosilbendauern  ein  Vektor  Tnetto  gemaft 
folgender  Bereclinungsweise: 


Tnetto  — 

(  Tnettoi  ^ 
Tnetto2 

_ 

^  <1,3  -  <1,1 
<2,3  -  <2,1 

_ 

*.,3  ) 

<2,3  —  <2,1 

\Tnettof<f  J 

-  iN,l y 

^<af,3  -  <A^,1 ; 

Die  grafische  Darstellung  gem.  Abbildung  5.6  auf  Seite  130  bzw.  Abbildung  5.9  auf  Seite 
135  (jeweiis  obere  Bildhalfte)  zeigt  die  gem.  Gleichung  5.7  errechneten  Nettosilbendau¬ 
ern,  aufgetragen  jeweils  iiber  der  laufenden  Nummer  der  korrespondierenden  Silbe. 

Nicht  dargestellt,  aber  dennoch  bei  weiteren  Beredmungen  verwendet  werden  zusatzlich 
audi  die  Bruttosilbendauern.  Sie  ergeben  sidi  duich  DifFerenzbildung  jeweils  zwisdien 
den  Zeitpunkten  aufeinanderfolgender  Silbenbeginne  bzw.  TbruttOi  =  —  t»,i. 

Damit  entsteht  pro  Testsatz  aus  den  N  -  1  Bruttosilbendauern  ein  Vektor  Tbriitto  init 


Tbriitto  = 

^  Thruttoi  ^ 
Tbrutto2 

_ 

^  <2,1- <1,1 
<3,1  -  <2,1 

<3,1  -  <2,1 

^Tbruttof^-\  j 

i 

^^<^,1  —  <A^-i,i  j 

\tN,l  -  <A^-l,l j 

(5,8) 


Die  Bewertung  des  Silbenflusses  erfolgt  iiber  die  grafisdie  Darstellung  der  relativen  Zeit- 
punkte  des  Beginns  jeder  der  9  bzw.  10  Silben  des  Testsatzes  (Silbenanfangszeiten),  be- 
zogen  auf  die  Gesamtrlauer  der  Aufierung;  sielie  hierzu  Abbildung  5.6  auf  Seite  130  bzw. 
Abbildung  5.9  auf  Seite  135  (jeweils  untere  Bildhalfte).  Die  aufgetragenen  RELATIVEN 
SILBENANFANGSZEITEN  ergeben  sidi  durdi  Einfiihrung  des  Divisors  der  Gesamt- 
dauer  bzw.  Tanfi  =  —  ti,i)  •  ft,i.  Die  Silbenanfangszeit  der  ersten  Silbe  betragt 

^1,1  “  0,  damit  vereinfadrt  sidi  die  Beredmung  auf  Tanfi  =  1/^W,3  •  it.i- 
Pro  Testsatz  entsteht  aus  den  N  relativen  Silbenanfangszeiten  ein  Vektor  Tanf  gemafi 


5.3.  T^chnische  Realisierung:  Entwickelte  Vei  fahven  und  Algovitbmen 


folgender  Berechnung: 


^Tou/i 

(h.A 

(o\ 

Tanf2 

1 

<2,1 

1 

<2,1 

^Ta7ifN  j 

tN,3 

\tN,l  J 

tN,3 

\<Af,l  J 

Die  grafische  Darstellung  gem.  Abbildung  5.6  auf  Seite  130  bzw,  Abbildiing  5.9  auf  Seite 
135  (jeweils  untere  Bildhalfte)  zeigt  die  gem.  Gleichung  5.9  errechneten  relativen  Silben- 
anfangszeiten,  aufgetragen  jeweils  iiber  der  laufenden  Nummer  der  korrespondierenden 
Silbe. 

Aus  Gleichung  5.9  ist  sofort  ersichtlich,  dafi  die  resultierende  Flu^grafik  stets  bei  dem 
Wert  0  beginnt  und  bei  einem  Wert  kleiner  als  100  Prozent  endet.  Letzteres  ergibt  sich 
aus  folgender  Betrachtung: 


Tanfpr  =  i  <1  fjv  3  >  t^.i  (5.10) 

tN,3 

Die  MITTLERE  (Netto-)SILBENDAUER  berechnet  sich  uber  Mittelwertbildung  der 
(im  Idealfalle  8N)  Silbendauern  samtlicher  Testsatze  der  betrachteten  Zielwortkomple- 
xitat  (siehe  Abbildung  5.8  auf  Seite  133)  bzw.  der  (im  Idealfalle  24A'')  Silbendauern  aller 
Testsatze  der  Sitzung  (siehe  Abbildung  5,11  auf  Seite  138),  je  nach  gewahlter  Auswer- 
tungsmodalitat. 

Die  zusatzlich  angegebene  MITTLERE  NETTOSILBENRATE  als  ein  MaS  fiir  das 
Sprechtempo  des  produzierten  Satzes  ist  der  Kehrwert  der  mittleren  (Netto)Silbendauer, 
Sie  tragt  damit  die  Dimension  1/sec  bzw.  Hz. 

Die  MITTLERE  BRUTTOSILBENRATE  als  ein  weiteres  Mali  fur  das  Sprechtempo  ist 
der  Kehrwert  der  mittleren  Bruttosilbendauer.  Letztere  ergibt  sich  analog  zur  dargestell- 
ten  Berechnungsweise  der  mittleren  (Netto-)Silbendauer  durch  Mittelwertbildung, 


5.3.3.  Auditive  Analyse  segmentaler  Defizite 

Der  Segmentierungseditor  (siehe  5.4  auf  Seite  124)  gestattet  dem  Untersucher  die  silben- 
bezogene  Angabe  von  Attributen  entsprechend  seiner  perzeptiven  Wahrnehmung  bzw. 
seines  auditiven  Befundes.  Zur  Verfiigung  stehen  hierftir  die  Silbenattribute 

•  IT  Iteration 
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5.  Realisienmg  des  Moduls  SATZPRODUKTION 


•  AD  Hiiizufugung 

•  E>  Elision 

•  PE  Phonetische  Entstellung 

•  PP  Phonematische  Paraphasie 

•  VE  Verschinelzung. 

Die  Attribuierung  verfolgt  hier  2  Ziele:  Zum  einen  sollen  alle  9  bzw.  10  tatsachlich  zum 
Testsatz  gelioreiiden  Zielsilben  aus  der  Menge  der  insgesamt  detektierten  Silben  -  ggf. 
angeieichert  uni  eventuell  falsciilicherweise  detektierte  Gerauschartefakte  -  voin  System 
erkannt  werden.  Da  MODIAS  iiur  eine  Silbensegmentierung,  aber  keine  Silbenerkennung 
durchfiihrt  und  weiterhin  voni  Untersuclier  keine  phonetische  Transkription  der  detektier¬ 
ten  Silbensegmente  abverlangt  wird,  ist  dem  System  die  Position  der  Zielsilben  zunachst 
unbekannt.  Die  Zuordnung  zu  den  Zielsilben  entsteht  erst  durch  die  Logik  einer  korrekten 
Attribuierung  (siehe  erganzend  Seite  125). 

Zum  anderen  soli  eine  differenzierte  Betrachtung  der  moglichen  Ursachen  fiir  eine  gestorte 
Satzproduktion  erfolgen.  Hierzu  werden  die  3  Parameter 

•  ITERATIONSQUOTIENT 

•  ADDITIONSQUOTIENT 

•  PAUSENQUOTIENT 

eingefuhrt.  Sie  beschreiben  die  relativen  Anteile  der  fur  Iterationen,  Additionen  bzw.  Pau- 
sen  aufgebrachten  Zeit  bezogen  auf  die  Gesamtdauer  der  AuKerung  (siehe  hierzu  auch 
Seite  131). 

Die  bisherige  Betrachtung  gem.  5.3.2  auf  Seite  155  hatte  zunachst  sowohl  eine  korrekte 
Satzproduktion  als  auch  eine  felilerfreie  Segmentierung  vorausgesetzt.  Die  Silbenmatrix 
S  gem.  Gleichung  5.6  hatte  genau  N  =  Q  bzw.  =  10  Eleniente  enthalten  (je  nach 
Testsatz),  d.h.,  saintliche  detektierte  Silben  waren  auch  Zielsilben. 

Treten  Hinzufiigungen,  Iterationen  oder  Elisionen  in  der  Satzproduktion  auf,  ist  die  An- 
zalil  der  Zeilen  der  Silbenmatrix  nicht  mehr  a  priori  bekannt. 

Die  hieraus  resultierende  Silbenmatrix  iS*  besitze  in  der  weiteren  Betrachtung  nunmehr 
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5.3.  Tecimische  RenUsierung:  Entwickelte  Verfahren  und  Algoritbmen 


M  Zeilen,  wobei  M  (die  Anzahl  der  Silben  bzw.  Zeilen)  grower,  gleich  oder  aber  auch 
kleiner  als  die  fixe  Anzahl  N  der  Zielsilben  sein  kann. 


tl,2 

^  0 

*1,2 

5  = 

^2,1 

*2,2 

*2,3 

= 

*2,1 

*2.2 

*2,3 

\iM,\ 

*M,2 

*Af,3  J 

\tM,l 

tM,2 

*M,3  y 

Der  Vektor  Tnetto  gem.  Gleichung  5.7  wird  daher  ebenfalls  um  die  Nettosilbendauern 
der  iiberflussigen  bzw.  fehlenden  Silben  auf  die  Dimension  M  erweitert,  damit  gilt  auch 


Tnetto  = 

^  Tnetto  1  ') 
Tnett02 

_ 

^  *1.3  -  *1.1  ^ 
*2,3  “  *2,1 

<1,3  ) 

*2,3  “  *2,1 

\TnettoM  ) 

^*M,3  “  *A<f,l J 

\*A/,3  -  *M,1  j 

Die  Gesamtdauer  aller  vorkommenden  Pausen  Tpaus  berechnet  sich  aus  den  zwischen 
den  Silben  l..,M  liegenden  zeitlichen  Lucken  oder  anders  ausgedruckt  aus  der  Differenz 
zwischen  Gesamtdauer  der  AufJerung  Tj,ei  =  <m,3  ~  rmd  der  Suinme  aller  Nettosil¬ 
bendauern  Tnettoi- 

Somit  kann  Tpaus  wie  folgt  angegeben  werden: 

M  Mm 

2))aus  =  T’pej  —  y^Tjiettoj  =  —  ii^i)  —  ^^Tnettoi  =  tjvt.a  “  ^^TntUoi  (5.13) 

t=i  t-i  i=i 

Der  gesuchte  PAUSENQUOTIENT  Qpaus  berechnet  sich  daher  zu 


D  ^  '^PCLUS  ^ 

Wpaxis  “  -Tf, -  “  ' 

-^gts 


-  ^Tnettoi 


i=l 

^M,3 


M 

Tnettoi 
i=i _ 

^A/,3 


(5.14) 


Die  gesamte  Dauer  der  innerhalb  des  Satzes  fur  Iterationen  aufgebrachten  Zeit  Tuer  wird 
aus  der  Sumine  der  korrespondierenden  Nettosilbendauern  gewonnen.  Zur  mathemati- 
schen  Beschreibung  wird  der  Vektor  P  eingefuhrt,  der  mit  seinen  m  Elementen  Pi  jeweils 
die  Position  aller  m  mit  dem  Attribut  Iteration  versehenen  Silben  innerhalb  des  Vektors 
Tneito  angibt.  Damit  gilt: 

m 

Tiur  ^Y^Tnettop^  (5.15) 

t=i 
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5.  ReaJisierung  des  Moduls  SATZPRODUKTION 


Der  gesuchte  ITERATIONSQUOTIENT  errechnet  sich  somit  zu; 


Qiter  = 


m 

E  Tnettop, 

^iter  _  i=l _ 

'Rges 


(5.16) 


Die  gesamte  Dauer  der  innerhalb  des  Satzes  fiir  Hinzufiigungen  aufgebrachten  Zeit  T^dd 
wird  ebenfalls  aus  der  Summe  der  korrespondierenden  Nettosilbendauern  gewoiinen.  Der 
Vektor  P  ordnet  tnit  seinen  n  Elementen  Pi  jeweils  die  Position  aller  n  hinzugefiigten 
Silben  innerhalb  des  Vektors  Tnetto  zu.  Damit  gilt; 

m 

Tadd  = '^Tnetto  p.  (5.17) 

Der  gesuchte  ADDITIONSQUOTIENT  errechnet  sich  somit  zu: 


Qadd  ~~  ' 


E]  Tnettop^ 

,  _ 

iM,3 


(5.18) 


5.4.  Anwendungen  und  Ergebnisse 


In  der  Entwicklungsgruppe  klinische  Neuropsychologie  Munchen-Bogenhausen 
(EKN)  wurden  innerhalb  eines  Forschungsprojekts  zwei  verschiedene  Sprechapraxie- 
Therapieverfahren  bezuglicli  ihrer  Wirksamkeit  verglichen.  Zuni  Zeitpunkt  der  Erstellung 
dieser  Arbeit  lagen  die  Ergebnisse  von  2  Langzeit-Studien  vor,  die  hierzu  bereits  eine 
deutliche  Tendenz  aufzeigen  und  daher  an  dieser  Stelle  vorgestellt  werden. 


5.4.1.  Untersuchungszlel 

Ziel  der  Untersuchung  war  es,  die  Wirksamkeit  eines  neuen  Therapieverfahrens  (SYNC) 
gegenuber  eihem  konventionellen  Verfahren  (CONV)  nachzuweisen.  Die  neue  Methode 
beruht  auf  einer  Synchronisationsaufgabe  aus  dem  System  TUS  (z.B.  in  [Ahr94]),  das 
als  Rhythmische  Stimulation  bezeichnet  wird. 

Fur  die  Untersuchung  wurde  ein  Design  gewahlt,  bei  dem  die  Patienten  abwechselnd 
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5.4.  Anwendungen  und  Ergebiiisse 


mit  beiden  Methoden  therapiert  wurden  (SYNC-CONV-SYNC-CONV  bzw.  CONV- 
SYNC-CONV-SYNC).  Vor  Therapiebeginn  wurde  jeweils  eine  Baseline-Untersuchung 
mit  MODIAS  durchgefiihrt;  nach  jeder  Therapiephase  (bestehend  aus  8  Untersuchungs- 
sitzungen  verteilt  iiber  2  Wochen)  erfolgte  jeweils  eine  Kontrolluntersuchung. 

5.4.2.  Stichprobe 

Patieiat  AE  (mannlich,  50  Jahre  alt);  Schweres  Sprechapraxie-Syndrom  iiifolge  eines 
Schlaganfalls  (Infarkt  der  linken  mittleren  Hirnarterie  9  Monate  vor  Therapiebeginn). 

Patient  EM  (mannlich,  63  Jahre  alt):  Mittelschweres  Sprechapraxie-Syndrom  infolge  ei¬ 
nes  Schlaganfalls  (Infarkt  der  linken  mittleren  Hirnarterie  3  Monate  vor  Therapiebeginn). 


5.4.3.  ErgebnlssG 

Die  Ergebnisse  sind  in  Abbildung  5.20  bis  5.23  dargestellt.  Bedingt  durch  die  Variation 
der  Reihenfolge  der  Therapieverfahren  entstehen  dabei  in  alien  Grafiken  zwei  Kurven- 
verlaufe,  die  zueinander  versetzt  angeordnet  sind.  Die  beiden  Therapiephasen  sind  durch 
horizontale  Balken  gekennzeichnet.  Die  Sternchen  markieren  in  jeder  Grafik  diejenigen 
Phasen,  in  denen  sich  signifikante  Verbesserungen  einstellten. 

In  Abbildung  5.20  sind  die  gemessenen  Gesamtsatzdauern  uber  die  24  Testsatze 
des  Moduls  gemittelt.  Man  sieht,  daS  beide  Patienten  die  Satzproduktionsaufgabe  mit 
zunehmender  Therapiedauer  in  kiirzerer  Zeit  absolvieren.  Der  Patient  EM  zeigt  in 
der  letzten  Therapiephase  (CONV)  wieder  eine  Verlangsamung,  allerdings  bei  weniger 
segmentalen  Fehlern. 

In  Abbildung  5.21  sind  die  mittleren  Anzahlen  segmentaler  Fehler  pro  Satz  darge¬ 
stellt.  Auch  hier  konnte  ein  kontinuierlicher  Riickgang  festgestellt  werden.  Die  Grafik 
zeigt,  daft  die  erste  Therapiephase  fur  Patient  EM  (SYNC)  besonders  wirksam  war; 
die  anschlieftenden  Phasen  zeigen  nur  noch  geringfiigige  Verbesserungen  („Deckeneflfe.kt“). 
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Abbilduiig  5.20.:  Gemessene  mittlere  Gesamtdaiiern  fiir  die  24  Testsatze  des  Moduls 
SATZPRODUKTION.  Beide  Patienten  konnten  ihre  Testsatze  nach  er- 
folgter  Therapie  jeweils  schiieller  realisieren. 

Abbildung  5.22  stellt  die  mit  MODIAS  gemessenen  Pausenquotienten  und  Abbil- 
dung  5.23  die  gemessenen  Additionsquotienten  dar.  Durch  Vergleich  der  beiden  Grafiken 
wild  ersichtlich,  dafi  die  Verbesseiungen  in  den  Satzdauern  zum  groKten  Teil  auf  eine 
Reduktion  der  Pausen  zuriickzufnhren  sind.  Additionen  wie  z.B.  Fehlversuche  und  Itera- 
tionen  traten  bei  beiden  Patienten  selten  auf,  so  dafi  keine  signifikanten  Veranderuugen 
festgestellt  werden  konnten. 

Zusammenfassend  kann  folgendes  festgestellt  werden: 

1.  Beide  Therapieverfahren  fiihren  zu  signifikanten  Verbesserungen,  d.h.,  beide  The- 
rapieverfahren  sind  wirksani. 

2.  Die  tiberlegenheit  der  SYNC-Therapie  kann  sich  erst  bei  einer  grofieren  Stichprobe 
zeigen.  Allerdings  ist  schpn  nach  den  beiden  abgeschlossenen  Therapie-Studien  er- 
kennbar,  dalJ  die  neue  Therapie  (SYNC)  haufiger  zu  signifikanten  Verbesserungen 
fiihrt  als  die  herkommliche  Methode. 
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Abbildung  5.21.:  Gemessene  mittlere  Anzahlen  segmentaler  Fehler  pro  Testsatz.  Beide 
Patienten  konnten  ihre  Testsatze  nach  erfolgter  Therapie  mit  weniger 
segmentalen  Fehlern  realisieren.  Die  erste  SYNC-Therapie  ist  besonders 
wirksam;  danach  sind  nur  noch  geringfiigige  Verbesserungen  feststell- 
bar. 


Abbildung  5.22.:  Gemessene  mittlere  Pausenquotienten  fiir  die  24  Testsatze.  Der  Anteil 
der  Sprechpausen  an  der  insgesamt  benotigten  Realisierungszeit  geht 
im  Laufe  der  Therapie  deutlich  zuriick.  Dutch  Vergleich  mit  Abbildung 
5.23  wird  sofort  ersichtlich,  da^  dieser  Effekt  als  Hauptursache  fiir  die 
Verbesserungen  in  den  Satzdauern  gesehen  werden  kann. 
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Abbildung  5.23,:  Gemessene  mittlere  Additionsquotienten  fiir  die  24  Testsatze.  Additio- 
nen  wie  Fehlversuche  und  Iterationen  traten  ingesamt  sehr  selten  auf, 
daher  sind  keine  signifikanten  Veranderungen  zu  erwarten. 


6.  Realisierung  des  Moduls  SCHNELLE 
SILBENWIEDERHOLUNGEN 


Das  diagnostisdie  und  technische  Konzept  zu  dem  Modul  SCHNELLE  SILBENWIE¬ 
DERHOLUNGEN  wurde  bereits  im  Kapitel  3  dargestellt.  Nach  einer  kurzen  Eilaute- 
rung  der  relevanten  diagnostischen  Pragestellungen  widmet  sich  dieses  Kapitel  mm  der 
konkreten  Realisierung  innerhalb  des  MODIAS-Systeins.  Der  interdisziplinare  Charakter 
der  Aufgabenstellung  lafit  hierbei  eine  Zweiteilung  sinnvoll  ersdieinen  in  die 

•  klinisch/diagnostisdi  relevanten  Anteile,  wie  z.B.  Untersudiungsprotokoll,  gewahl- 
tes  Untersuchungsmaterial,  Ablauf  einer  Untersudiungssitzung  und  Auswertung 
bzw.  Darstellung  der  Ergebnisse,  sowie  in 

•  technisdi  relevante  Anteile,  wie  z.B.  angewandte  Verfahren  und  Algoritliinen,  die  zu 
der  ingenieurwissenschaftlichen  Losung  der  medizinischen  Problemstellung  gefiihrt 
haben. 

Der  letzte  Abschnitt  zeigt  eine  klinische  Anwendung  des  Moduls  SCHNELLE  SILBEN¬ 
WIEDERHOLUNGEN  im  Rahmen  eines  Syndromvergleiches  zwischen  Dysarthrie  und 
Sprediapraxie.  Die  Untersuchung  wurde  in  der  Entwicklungsgruppe  Klinische  Neuropsy- 
chologie  des  Stadtischen  Krankenhauses  Miinchen-Bogenhausen  durchgefiilirt. 


6.1.  Diagnostische  Pragestellungen 

Die  Uberpriifung  schneller  Wechselbewegungen  (Diadochokinese)  stellt  einen  Standard 
in  der  neurologischen  Diagnostik  motorischer  Storungen  dar.  Diadochokineseleistungen 
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der  Hand  liefern  ein  sensitives  Mafi  fiir  Storungen  von  motorischer  Koordination  und  Be- 
wegungsgeschwindigkeit  ([HerOO)).  Dysdiadochokinese  zalilt  insbesondere  zu  den  Zeichen 
ataktischer  Bewegungsstorungen  ([Not94]). 

In  der  Diagnostik  zentraler  Sprechstorungen  werden  rasche  Wechselbewegungen  durch 
Silbenwiederholungsaufgaben  gepriift.  Audi  diese  Aufgaben  bilden  ein  sensitives  Testver- 
fahren  fiir  das  Vorliegen  motorischer  Storungen  ([Por82]),  wenn  auch  Diadochokineselei- 
stimg  und  sprediinotorisches  Defizit  dissoziieren  konnen  ([Zie96]).  TVotz  der  Bedeutung, 
die  die  schnelle  Silbenwiederholung  in  der  Diagnostik  zentraler  Sprechstorungen  besitzt, 
gibt  es  noch  keine  apparativen  Verfahren  zur  klinischen  Messung  artikulatorischer  Dia- 
dochokineseleistungen,  Das  in  der  Praxis  iibliche  time-by-count- Verfahren  ist  ungenau 
und  erfafit  nur  Tempoaspekte,  nicht  die  Regularitat  der  Wiederholungen.  Daher  wurde 
dieser  Aufgabentyp  in  das  Diagnostiksystem  MODIAS  integriert  ([Merk99a]). 


6.2.  Aufbau  und  Gestaltung 

6.2.1.  Untersuchungsprotokoll  und  -material 

Der  Patient  wird  gebeten,  die  folgenden  Silben  moglichst  rasch  und  regelmafiig  zu  wie- 
derholen: 

•  /ba/,  /da/^  /<?«/>  /na/  sowie  die 

•  /bada/  und  /dana/. 

Damit  entstehen  insgesamt  6  Aufzeichnungen  pro  Untersuchungssitzung.  Die  Aufgaben 
/6a/,  /dffl/,  /ga/  und  /na/  erfordern  eine  repetitive  VerschluKbildung  durch  die  primaren 
Artikulatoren  Lippen,  Zungenspitze  und  Zungenriicken,  im  Falle  von  /na/  bei  zusatz- 
lich  abgesenktem  Gaumensegel.  Die  Aufgabe  /bada/  erfordert  ein  repetitives  Wechseln 
zwischen  zwei  unterschiedlichen  Artikulatoren,  /dana/  erfordert  eine  Koordination  von 
Zungen-  und  Velumbewegungen.  Auf  die  Priifung  der  Sequenz  /hadaga/  wurde  verzich- 
tet,  weil  diese  Aufgabenstellung  haufig  mit  fehlerhaften  Realisierungen  verbunden  ist.  .. 
Die  Untersuchung  liefert  somit  ein  Profil,  das  die  Diadochokineseleistung  unterschiedli-' 
cher  Artikulatoren  und  den  Einfluft  zusatzlicher  Anforderungen  an  die  Bewegungskoor- 
dination  abbildet. 
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6.2.2.  Untersuchungsablauf  und  Bedienung 

Nach  dem  Aufruf  des  MODIAS-Systems  erscheint  die  Startoberflache  gem.  Abbildung 
4.1  auf  Seite  47  mit  dem  entsprechenden  Startbutton  fiir  das  Modul  SCHNELLE 
SILBENWIEDERHOLUNGEN. 

Nach  Betatigung  des  Buttons  START!  gelangt  man  unmittelbar  zur  Organisationsober- 
flache  gem.  Abbildung  4.2  auf  Seite  48  mit  der  AufForderung  zur  Eingabe  samtlicher 
relevanter  Daten  zum  Patienten  und  zur  aktuellen  Untersuchungssitzung. 

Der  Untersucher  wird  jetzt  zur  Aufzeichiiungsoberflaclie  gem.  Abbildung  6.1  weiterge- 
leitet. 


jp^nqufcflp.  1:  Aol/cichnunqtmcnwi... _ 


|j  Au<Aichn«n'il’'  I 

i|'i 


Aurzelcliniin>]Stoil 


Abbildung  6.1.:  Aufzeichnungsoberflache  des  Moduls  SCHNELLE  SILBENWIEDER¬ 
HOLUNGEN.  Die  Aufzeichnung  wird  jeweils  durch  den  Button  AUP- 
ZEICHNEN...  gestartet.  Liegt  bereits  eine  Aufzeichnungssitzung  vor, 
ist  nur  die  Wiedergabe  iiber  den  vom  System  ersetzten  Button  ANHO- 
REN...  moglich. 

Die  Aufzeichnung  jeder  Silbenwiederholungsaufgabe  wird  durch  Betatigung  des 
entsprechenden  Buttons  AUFNEHMEN...  gestartet.  Jetzt  wird  vom  Patienten  jede  Sil- 
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benwieclerholungsaufgalje  mit  der  ihni  maximal  moglichen  Geschwindigkeit  gesprochen. 
Soli  die  Aufzeiclmimg  gespeichert  werden,  geniigt  das  Schliefien  des  Soundrecorders  (sie- 
he  Abbildung  4.5  auf  Seite  51)  und  die  Speicherung  wie  vorgeschlagen.  Der  Dateiname 
ist  durch  MODIAS  bereits  voreiwgestellt,  ebenso  die  Systemeinstellungen  beziiglich 
Samplingrate  (22050  Hz)  und  Auflosung  (16Bit). 

Die  iin  Untersucliungsprotokoll  vorgesehene  Stilleaufzeichnung  sieht  eine  Aufzeichnung 
ohne  Aufsprache  bzw.  ohne  jegliche  Art  von  (nicht  systemimmanentea)  Storgerauschen 
mit  einer  Dauer  von  ca.  5  sec  vor.  Eine  automatisch  durchgefiihrte  statistische  Analyse 
des  systemspezifischen  Rauschens  des  Aufzeichnungssystems  Soundkarte/Rechner 
ermdglicht  eine  wesentlich  exaktere  Festlegung  der  Silbengrenzen  bzw.  von  Signalab- 
schnitten  mit  artikulatorischer  Aktivitat. 

Wie  bereits  dargestellt,  besteht  jede  Aufzeichnung  aus  einer  Kette  von  Silbenwieder- 
holungen,  die  im  Regelfall  koutinuierlich  aneinandergereiht  sind,  bei  Patienten  mit 
Artikulationsstdrungen  aber  diuch  Sprechpausen  unterschiedlicher  Lange  unterbrochen 
sein  konnen.  Zur  Erfassung  der  suprasegmentalen  bzw.  zeitlichen  Aspekte  der  artiku- 
latorischen  Diadochokinese  ist  es  zunachst  erforderlich,  die  Aufzeichnung  weitgehend 
automatisch  in  einzelne  Silben  zu  segmentieren.  Da  die  hierzu  bekannten  Verfahren  bei 
unscharfer  Artikulation  an  ihre  Grenzen  stofien,  muK  neben  einem  gesteigerten  Aufwand 
in  das  technische  Verfahren  dem  Untersucher  auch  die  Moglichkeit  gegeben  werden,  in 
die  Segmentierung  steuernd  eingreifen  zu  konnen.  Gerade  in  der  zeitlichen  Lage  der 
Einzelsilben  und  in  ihrer  Dauer  liegt  die  Information,  die  zur  spateren  Beurteilung  der 
artikulatorischen  Diadochokinese  lierangezogen  werden  soli. 

Hierzu  wurde  in  dem  Modul  SCHNELLE  SILBENWIEDERHOLUNGEN  ein  spezieller 
Segmentierungseditor  implementiert,  der  einen  mit  der  subjektiven  Lautheitsempfindung 
des  menschlichen  Gehors  korrespondierenden  Kurvenverlauf  (Lautheitskontur)  darstellt 
und  damit  eine  geeignete  Oberflache  flir  die  weitere  Bearbeitung  durch  den  Untersuchfer 
zur  Verfiigung  stellt. 

Die  erforderlichen  Berechnungen  der  Lautheitskonturen  sowie  der  daraus  abgeleiteten 
Silbengrenzen  werden  automatisch  beim  Obergang  von  der  Aufzeichnungsoberflache  zur 
anschlieftenden  Segmentierungsoberflache  gem.  Abbildung  6.2  fur  jede  der  realisierten 
Silbenwiederhohmgsaufgaben  berechnet. 

Die  Segmentierungsoberflache  gestattet  fiir  jede  durchgefiihrte  Aufzeichnung  (erkennbar 
an  einer  gelben  Markierung  am  rechten  Rand  der  jeweiligen  Textfelder)  iiber  den  Button 
SEGMENTIEREN  den  Aufruf  des  Segmentierungseditors  gem.  Abbildung  6.3. 
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Abbildung  6.2.:  Segmentierungsoberflache  cles  Moduls  SGHNELLE  SILBENWIEDER- 
HOLUNGEN.  Dutch  Betatigung  des  Buttons  SEGMENTIEREN...  wird 
die  Segmentierung  det  jeweils  zugeordneteii  Silbenwiederholuugsaufgabe 
eingeleitet. 

Im  Segmentierungseditor  werden  zunachst  die  berechneten  Lautheitskonturen  fiir 
die  jeweilige  Silbenwiederholuugsaufgabe  grafisch  darstellt  und  dabei  die  vom  Seg- 
mentierungsalgorithmus  automatisch  erkannten  Silben  entsprechend  markiert.  Die 
Lautheitskonturen  zeigen  idealtypisch  lokale  Maxima  an  den  Orten  der  Silbenkerne  bzw. 
lokale  Minima  an  den  Orten  der  Silbeniibergange  bzw.  in  den  Sprechpausen. 

Das  rechts  oben  eingeblendete  Informationsfeld  zeigt  dem  Untersucher  den  aktuellen 
Stand  der  Silbensegmentierung  fiir  die  gerade  bearbeitete  Silbenwiederholungsaufgabe 
an.  Die  eingeblendete  Zahl  entspricht  der  Anzahl  der  produzierten  Silben  nach  dem 
gegenwartigen  Kenntnisstand  des  Systems. 

Miissen  die  vorgeschlagenen  Silbengrenzen  beziiglich  ihrer  zeitlichen  Lage  korrigiert 
werden,  stehen  dem  Untersucher  mehrere  Interaktionsmoglichkeiten  zur  Verfiigung.  Un- 
terstiitzend  wird  hierzu  im  unteren  Teil  des  Bildschirms  das  zeitsynchrone  Oszillogramm 
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Abbilclung  6,3.:  Bedieiioberflache  des  Segmentierungseditors  des  Moduls  SCHNELLE 
SILBENWIEDERHOLUNGEN.  Hier  erfolgt  die  manuelle  EinflulSnahme 
des  Untersuchers  auf  die  vom  System  vorgeschlagene  Segmentierung.  Die 
projizierte  Kiirve  stellt  die  subjektive  Lautheitsempfindung  des  mensch- 
lichen  Gehors  dar,  sie  eignet  sich  daher  besonders  als  Grundlage  zur 
Detektion  von  Silben.  Das  zeitsynchrone  Oszillogramm  dient  zur  Unter- 
stiitzung  bei  der  manuellen  Segmentierung. 

gem.  Abbildung  6.3  als  zusatzliche  Visualisierung  des  Sprachsignales  eingeblendet. 

Das  Menii  MANIPULATION  dient  der  unmittelbaren,  manuellen  Einfluftnahme 
auf  die  bisher  automatisch  erfolgte  Segmentierung.  Es  bietet  die  folgenden  Auswahl; 

•  ZWEI  SILBEN  VEREINIGEN:  Diese  Funktion  ist  immer  dann  sinnvoll,  wenn  eine 
Silbe  z.B.  aufgrund  eines  Lautheitseinbruches  im  Silbenkern  vom  Segmentierungs- 
algorithmus  falschlicherweise  in  zwei  (Halb-)Silben  geteilt  wurde.  Hierzu  Silbenkern 
mit  linker  Mousetaste  selektieren,  damit  wird  die  aktuelle  Silbe  mit  der  unmittelbar 
nachfolgenden  Silbe  vereinigt. 
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•  SILBE  LOSCHEN;  Gestattet  die  Entfernung  von  Silben,  z.B.  bei  fehlinterpretier- 
ten  Geranschartefakten.  Der  betrefFende  Silbenkern  wird  mit  linker  Mousetaste 
selektiert,  damit  wird  die  gesamte  Silbe  entfernt. 

•  SILBE  SETZEN:  Manuelle  Markierung  einer  Silbe,  die  ggf.  vom  Algorithmus  zu- 
nachst  unerkannt  geblieben  war.  Hierzu  Silbenkern  mit  linker  Mousetaste  setzen, 
die  zugehorigen  Silbengrenzen  werden  automatisch  vom  System  vorgeschlagen. 

•  LINKE  bzw.  RECHTE  SILBENGRENZE  verschieben:  Erlaubt  die  manuelle  Ver- 
schiebung  von  Silbengrenzen.  Der  Silbenkern  wird  hierfiir  mit  der  linken  Mouseta¬ 
ste  selektiert,  danach  wird  der  neue  Ort  der  linken  bzw.  rechten  Silbengrenze  mit 
gleicher  Mousetaste  vorgeben. 

Das  Menu  WIEDERGABE  gestattet  dem  Untersuclier  die  perzeptive  Kontrolle  der 
bisherigen  Silbensegmentierung.  Die  Auswahl  erlaubt  die  Wiedergabe  der  gesamten 
Aufzeichnung,  die  manuelle  Einzelsilbenwiedergabe  (wiederzugebenden  Silbe  jeweils 
mit  linker  Mousetaste  selektieren)  oder  die  selektive  Wiedergabe  derjenigen  Silben, 
die  innerhalb  des  definierten  Auswerteblocks  liegen  (Erlauterung  zur  Definition  von 
Answer teblocken  folgt  im  weiteren  Text). 

Das  Menu  SONDERFUNKTIONEN  bietet  dem  Nutzer  die  Mdglichkeit,  sogenannte 
Auswerteblocke  zu  definieren.  Diese  Auswertebldcke  legen  fest,  welche  Silben  der 
Aufzeichnung  in  die  weiteren  Auswertungen  eingehen  bzw.  welche  nicht  mehr  welter 
betrachtet  werden  sollen.  Diese  Option  gewahrleistet,  dafJ  bei  der  Auswertung  eine 
konstante  Anzahl  von  Silben  beriicksichtigt  wird.  Das  Auswertungsfenster  kann  so 
positioniert  werden,  dalS 

•  Sprechpausen  (z.B.  durch  Luftholen), 

•  Sequenzfehler, 

•  Artefakte  (z.B.  durch  husten,  rauspern,  lachen  usw.) 

nicht  in  die  Auswertung  eingehen.  Nach  Aufruf  der  entsprechenden  Auswahl  erscheinen 
am  oberen  Bildrand  des  Segmentierungseditors  zwei  Eingabefelder  mit  folgender  Infor¬ 
mation: 
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•  STARTSILBE:  Laufende  Nummer  der  Silbe,  die  den  Anfang  des  Auswerteblocks 
inarkiert, 

•  BLOCKLANGE:  Aiizahl  der  Silben,  die  innerhalb  des  Auswerteblocks  liegen  sollen. 


Wil'd  mindestens  eines  dieser  Felder  init  der  Taste  <Return>  verleissen,  ist  die  gewahlte 
Blockdefinition  aktiviert,  zusatzlich  wild  eine  farbige  Markierung  in  die  Segmentierungs- 
oberflache  zur  grafischen  Visualisierung  projiziert  (siehe  Abbildung  6.3). 

Die  Blockdefinition  kann  jederzeit  geandert  oder  aber  auch  fiber  die  entsprechende 
Menuauswahl  wieder  verworfen  werden.  Sie  fuhrt  nach  dem  Verlassen  des  Segmen- 
tierungseditors  nicht  zur  Beschneidung  der  Aufzeichnung,  d.h.,  die  Anteile  aufierhalb 
des  gewahlten  Blockes  bleiben  erhalten  uiid  stehen  damit  auch  beim  Wiederaufruf  des 
Segmentierungseditors  uneingeschrankt  zur  Verffigung. 

Die  Auswahl  MANUELLE  THRESHOLD- FESTLEGUNG  gestattet  dem  Uiitersu^ 
cher  die  spezifische  Vorgabe  einer  Mindestlautheit  fur  die  Detektion  von  Silben  direkt  in 
der  Grafik  fiber  die  linke  Mousetaste. 

Das  Menfi  HILFSMITTEL  ermoglicht  eine  benutzerdefinierte  Zoomfunktion  be- 
zuglich  der  Zeitachse  bei  fester  Skalierung  der  Lautheitsachse.  Die  Festlegung  des 
darzustellenden  Bereiches  erfolgt  durch  Aufziehen  eines  Zoomfeiisters  bei  gedriickter 
linker  Mousetaste.  Die  drei  weiteren  Optionen  dieses  Mentis  steuern  das  Ein-  bzw. 
Auslilenden  des  Oszillogrammes  sowie  die  Anpassung  der  Oszillogramm-Darstellung 
auf  bereits  erfolgte  Manipulationen  (Linke  bzw.  rechte  Silbengrenze  verschoben)  oder 
geanderte  Skalierungen  (Zeitachse  gezoomt). 

Das  letzte  Menfi  ?  bietet  eine  Hilfefunktion  mit  ausffihrlicher  Beschreibung  der  Bedie- 
nung  des  Segmentierungseditors, 

Nach  Verlassen  des  Segmentierungseditors  mit  dem  Button  OK  werden  die  jetzt 
filierflfissigen  Signalabschnitte  vor  der  ersten  und  nach  der  letzten  Silbe  entfernt 
(unabliangig  von  einem  eventuell  festgelegten  Auswerteblock).  Sind  alle  Aufzeich- 
nungen  innerhalb  der  Segmentierungsoberflache  bearbeitet,  erfolgt  der  Obergang  zur 
Auswertung. 
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6.2.3,  Auswertung,  Ergebnisdarstellung  und  Datenexport 
6. 2. 3.1.  Auswertung  und  grafische  Ergebnisprasentation 

Der  Auswertungsteil  des  Moduls  SCHNELLE  SILBENWIEDERHOLUNGEN  widmet 
sich  primar  der  grafischen  Visualisierung  von  Tempo,  Rhythmus  und  Silbenflul?,  bier 
speziell  der  Bewertung  der  Fahigkeit  zur 

•  Produktion  einer  ausreichend  hohen  Wiederholungsrate, 

•  Konstanthaltung  des  Zeitmusters,  und  zur 

•  Konstanthaltung  des  Amplitudenmusters 

bei  schnellen  Silbenwiederholungen.  Das  erste  Auswertungsblatt  gem.  Abbildung  6.4 
stellt  hierzu  die  relevanten  MefigroEen  dar.  Dabei  wurde  fiir  beide  Grafiken  eine  Projek- 
tion  gewahlt,  die  auf  der  Abszisse  ein  aquidistantes  Raster  mit  der  absoluten  Anzahl  der 
beriicksichtigten  Silben  enthalt.  Waren  zuvor  fiir  einzelne  Silbenwiederholungeaufgaben 
bei  der  entsprechenden  Vorverarbeitung  im  Seginentierungseditor  Auswerteblocke 
definiert  worden,  so  werden  hier  iiur  die  Silben  innerhalb  dieser  festgelegten  Blocke 
angezeigt  und  in  alle  weiteren  Berechnungen  miteinbezogen. 

Im  oberen  Teil  des  Auswertungsblattes  sind  fiir  jede  der  6  Silbenwiederholungsaufgabe 
die  ermittelten  BRUTTOSILBENDAUERN  in  der  Dimension  ms  fiber  der  entsprechen¬ 
den  Silbe  aufgetragen,  also  ein  Parameter  zur  Bewertung  der  zeitlichen  Aspekte  der 
Silbenproduktion.  Die  Bruttosilbendauern  ergeben  sich  aus  dem  Zeitabstand  jeweils 
zweier  aufeinanderfolgender  linker  Silbengrenzen  bzw.  aus  der  Summe  von  Nettosil- 
bendauern  (Zeitabstand  jeweils  zwischen  linker  und  rechter  Silbengrenze)  und  den 
sich  gegebenenfalls  unmittelbar  anschlieftenden  Pausen.  Der  resultierende  Verlauf  jeder 
Silbenwiederholungsaufgabe  ist  hier  in  einer  elgenen  Farbe  dargestellt  gemafi  der  unten 
.rechts  dargestellten  Legende. 

Das  hier  gezeigte  Beispiel  gem.  Abbildung  6.4  entstammt  einer  Untersuchung  an 
einem  sprechgesunden  Probanden.  Der  Silbenfluft  ist  kontinuierlich  ohne  relevante 
Auffalligkeiten  bei  einer  insgesamt  hohen  Realisierungsgeschwindigkeit. 

,Die  eingeblendete  gestrichelte  Linie  zeigt  den  Durchschnittswert  der  Bruttosilbendauern 
an,  berechnet  fiber  alle  realisierten  Silben  (Grand  Average),  hier  164  ms. 
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Abbilduiig  6.4.:  Auswertung  zum  Modul  SCHNELLE  SILBENWIEDERHOLUNGEN, 
Blatt  1.  Die  Kurven  geben  Aufschlufi  uber  die  zeitlichen  Aspekte  der 
Silbenprodnktion.  Samtliche  Verlaufe  werden  statistisch  beziiglich  linea- 
rer  IVends  und  ihrer  mittleren  Scliwankung  analysiert. 

Die  am  rechten  oberen  Rand  dargestellte  Tabelle  gibt  an,  ob  die  dargestellten  Kurvenver* 
laufe  jeweils  einen  (linearen)  Tiend  aufweisen.  Diese  aus  der  Zeitreihe  der  Silbendauern 
ermittelten  Trends  im  Verlauf  der  Bruttosilbendauern  werden  in  der  Dimension  ms/sec 
angegeben,  wobei  ein  positives  Vorzeichen  einen  Anstieg  der  Bruttosilbendauern 
(Tempoverlangsamung)  anzeigt,  ein  negatives  Vorzeichen  hingegen  einen  Abfall  der 
Bruttosilbendauern  (Tempoerhohung) . 

Die  in  der  rechten  Spalte  der  Tabelle  aufgelisteten  Werte  geben  zusatzlich  an,  wie  stark 
die  darge.stellten  Kurvenverlaufe  zeitlich  schwanken.  Sie  ergeben  sich  durch  Berechnung 
der  (trendbereinigten)  Standardabweichung  der  gemessenen  Bruttosilbendauern  und 
sind  in  der  Dimension  ms  angegeben.  Ein  hoher  Wert  steht  hier  fur  eine  hohe  Schwan- 
kung  der  Bruttosilbendauern  (geringe  Regularitat),  ein  niedriger  Wert  entsprechend 
fiir  eine  geringe  Scliwankung  (hohe  Regularitat).  Fiir  den  Sprechgesunden  1st  wie  im 
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gezeigten  Beispiel  eine  hohe  Regular! tat  zu  erwarten,  also  glatte  Kurvenverlaufe  und 
damit  auch  vergleichsweise  geringe  Standardabweichungen. 

Im  unteren  Teil  des  Auswertungsblattes  sind  die  normierten  PSYCHOAKUSTI- 
SCHEN  LAUTHEITEN  in  der  Dimension  dB  uber  der  jeweils  korrespondierenden 
Silbe  aufgetragen,  also  ein  Parameter  zur  Bewertung  der  phonatorischen  Aspekte  der 
Silbenproduktion.  Sie  sind  normiert  auf  die  mittlere  Lautheit  aller  Silben  der  jeweiligen 
Silbenwiederholungsaufgabe.  Auch  hier  ist  der  zu  jeder  Aufgabe  gehorenden  Kurvenver- 
!auf  farblich  gemaft  der  unten  rechts  dargestellten  Legende  eindeutig  zuordnenbar. 

Die  am  rechten  unteren  Bildrand  eingeblendete  Tabelle  gibt  analog  zum  oberen  Teil  des 
Auswertungsblattes  fiir  die  Verlaufe  der  normierten  psychoakustischen  Silbenlautheilen 
die  gegebenenfalls  unterliegenden  Trends  in  der  Dimension  dB/sec  an,  wobei  hier 
ein  positives  Vorzeichen  mit  einer  Zunahme  der  Silbenlautheiten  bei  fortschreitender 
Realisierungsdauer  korrespondiert,  Ein  negatives  Vorzeichen  deutet  hingegen  auf  eine 
Abnahme  der  Silbenlautheiten  hin,  die  z.B.  einen  Hinweis  auf  eine  unokonomische 
Exspiration  geben  kann. 

Die  in  der  rechten  Spalte  der  Tabelle  aufgefiihrten  Zahlenwerte  errechnen  sich  aus  den 
(trendbereinigten)  Standardabweichungen  der  psychoakustischen  Lautheiten  samtlicher 
Silben  der  jeweiligen  Silbenwiederholungsaufgabe.  Ein  holier  Wert  steht  hier  fur  hohe 
Schwankungen  der  phonatorischen  Intensitat  (niedrige  Stabilitat),  ein  niedriger  Wert 
entsprechend  fiir  eine  geringe  Schwankung  (hohe  Stabilitat). 

Das  Menu  DRUCKEN  stellt  diverse  Varianten  der  Druckausgabe  zur  Verfiigung  wie 
Farbdruck,  Schwarz- Weifi-Druck  oder  Kopie  in  die  Zwischenablage  fiir  die  weitere 
Verwendung  in  klinischen  Berichten  usw. 

Das  Menu  WIEDERGABE  erlaubt  dem  Untersucher  die  akustisclie  Wiedergabe  einzel- 
ner  Silbenwiederholungsaufgaben  bei  gleichzeitiger  Betrachtung  der  hierzu  ermittelten 
Kurvenverlaufe. 

Das  Menii  DARSTELLUNG  gestattet  die  selektive  Projektion  einzelner,  gerade  naher 
zu  betrachtender  Silbenwiederholungsaufgaben.  Bei  Detailauswertungen  kann  diese 
optionale  Beeinfiussung  der  Darstellung  eine  verbesserte  Obersichtlichkeit  herbeifiihren. 

Das  zweite  Auswertungsblatt  gem.  Abbildung  6.5  liefert  einen  Scatterplot  bzw. 
die  Anzeige  von  Datenpunkten  in  einer  zweidimensionalen  Ebene,  die  jeweils  1 
Parameterpaar  pro  Einzelsilbe  reprasentieren.  Damit  ist  die  Beobachtung  von  Parame- 
terkorrelationen  sehr  anschaulich  moglich. 
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Abbildung  6.5.;  Auswertung  zum  Modul  SCHNELLE  SILBENWIEDERHOLUNGEN, 
Blatt  2.  Die  dargestellten  Scatterplots  erlauben  dem  Untersucher  die 
Beobachtung  von  Korrelationen  zwischen  jeweils  2  akustischen  Parame- 
tern. 

In  der  oberen  Bildhalfte  wird  hierzu  pro  Silbe  ein  Datenpaar  projiziert,  welches  sich  aus 
der  jeweiligen 

•  Nettosilbendauer  in  der  Dimension  ms  und  der 

•  normierteii  psychoakustischen  Lautheit  des  Silbenkerns  in  der  Dimension  dB 

zusammensetzt.  Je  holier  die  Konstanz  der  Nettosilbendauern  und  der  zugehorigen  Sil- 
benkernlautlieiten  ware,  desto  starker  wiirde  sich  hier  die  Konzentration  der  Datenpunkte 
in  der  Darstellungsebene  auspragen.  Der  Schwerpunkt  liegt  hierbei  also  auf  der  Beurtei- 
lung  von  Unregelmafiigkeiten  in  der  Silbenproduktion. 
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In  der  unteren  Bildhalfte  wird  fiir  jede  realisierte  Silbe  ebenfalls  ein  Datenpaar  in  eine 
zweidimensionale  Ebene  projiziert,  hier  jedoch  gebildet  aus  der  jeweiligen 

•  Bruttosilbendauer  in  der  Dimension  ms  und  der 

•  normierfcen  psychoakustischen  Lautheit  der  jeweils  linken  Silbengrenze  in  der  Di¬ 
mension  dB. 

Diese  Darstellung  bietet  zum  einen  den  Vorteil,  daft  durch  die  Projektion  der  Brut¬ 
tosilbendauer  auch  die  eventuell  vorhandenen  Pausen  zwischen  den  einzelnen  Silben 
mit  eingehen.  Damit  wird  der  Fall  einer  zwar  konstanten  Nettosilbendauer,  aber  einer 
variablen  Pausendauer  sichtbar.  Der  Schwerpunkt  liegt  hier  also  auf  der  Beurteilung  von 
Unregelmafiigkeiten  im  Silbenfluji. 

Der  andere  Vorteil  dieser  Darstellung  ist  die  spezifischere  Beurteilung  der  komplexen 
Silbenfolge  /dana/  mit  ihrer  hoheren  artikulatorischen  Anforderung.  Bei  der  Silbenfolge 
/dana/  ist  bei  korrekter  Gaumensegelfunktion  uiid  damit  vollstandiger  Verschluftbildung 
des  Rachenraumes  gegeniiber  dem  Nasenraum  beim  Plosivlaut  /d/  ein  Unterschied  in 
der  psychoakustischen  Lautheit  gegenuber  /a/  zu  erwarten.  Wahrend  bei  der  Bildung 
des  Konsonanten  /d/  sowohl  der  Mundraum  als  auch  der  Nasenraum  abgeschlossen  sind 
und  das  Sprachsignal  daher  fur  kurze  Zeit  den  Wert  0  annimmt,  wirkt  bei  der  Bildung 
des  Nasals  /n/  durch  die  Absenkung  des  Gaumensegels  der  Nasenraum  als  Resonator 
und  die  abgestrahlte  Signalenergie  hat  einen  deutlich  von  0  verschiedenen  Wert.  In 
^Abbildung  6.5  ist  dieser  Effekt  durch  eine  Aufteilung  der  Datenpunkte  in  zwei  Gruppen 
unterschiedlicher  Lautheit  erkennbar. 

iDas  Menii  DRUCKEN  stellt  diverse  Varianten  der  Druckausgabe  zur  Verfugung  wie 
Farbdruck,  Schwarz- Weift-Druck  oder  Kopie  in  die  Zwischenablage  fiir  die  weitere 
Verwendung  in  klinlschen  Berichten  usw. 

Das  Menu  WIEDERGABE  erlaubt  dem  Untersucher  die  akustische  Wiedergabe  einzel- 
ner  Silbenwiederholungsaufgaben  bei  gleichzeitiger  Betrachtung  der  korrespondierenden 
Scatterplots. . 

Das  Menu  DARSTELLUNG  gestattet  zwei  verschiedene  Darstellungsvarianten: 

'■  •  Beschrankung  der  Scatterplots  auf  einzelne,  ggf.  naher  zu  betrachtende  Silbenwie¬ 
derholungsaufgaben, 
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•  Beschrankung  der  Darstellung  auf  Mittelwerte  uud  Standardabweichungen,  berech- 
net  iiber  alle  realisierten  Silben  der  jeweiligen  Silbenwiederholungsaufgaben  anstelle 
der  Standardeinstellung  der  Einzelsilbendarstellung. 

Beide  Varianten  sind  bei  Detailauswertungen  hilfreich  und  verschaffen  dem  Untersucher 
eine  bessere  Obersicht. 

Das  dritte  und  letzte  Auswertungsblatt  des  Moduls  SCHNELLE  SILBENWIEDERHO¬ 
LUNGEN  zeigt  die  Abbildung  6.6.  Es  bietefc  dem  Untersucher  einen  Gesamtiiberblick 
iiber  Tejnpo  und  RedefluB  der  Silbenproduktion. 


Abbildvmg  6.6.:  Auswertung  zum  Modul  SCHNELLE  SILBENWIEDERHOLUNGEN, 
Blatt  3.  Die  angezeigten  Parameter  fassen  die  bisherigen  Einzelergebnis- 
se  zusatnmen  und  bieten  dem  Untersucher  so  einen  schnellen  Uberblick 
bezUglich  der  artikulatorischen  Diadochokinesefahigkeit  des  Patienten. 

Hierzu  werden  4  verschiedene  akustische  Parameter  getreunt  nach  Silbenwiederholungs¬ 
aufgaben  abgeleitet  und  dargestellt,  das  sind  die 
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•  Mittleren  Bruttosilbenraten:  Kehrwerte  der  mittleren  Bruttosilbendauern  in  der 
Dimension  Hz,  somit  das  korrespondierende  Geschwindigkeitsmafi  der  Silbenpro- 
duktion; 

•  Mittlere  Pausendauer;  Durchschnittliche  Pausendauer  zwischen  den  einzeluen  Sil- 
ben  in  der  Dimension  ms.  Zugleich  mittlere  Differenz  zwischen  Brutto-  und  Netto- 
silbendauern; 

•  Variationskoeffizienten  der  Kernlautheiten;  Standardabweichung  der  normierten 
psychoakustischen  Lautheiten  der  Silbenkerne  in  der  Dimension  dB; 

•  Variationskoeffizienten  der  Grenzenlautheiten;  Standardabweichung  der  normierten 
psychoakustischen  Lautheiten  der  jeweils  linken  Silbengrenzen  in  der  Dimension 
dB. 


•'Die  beiden  Variationskoeffizienten  entstehen  durch  Relativierung  der  entsprechenden 
'Standardabweichungen  am  Mittelwert,  um  eventuelle  Abhangigkeiten  zwischen  Mittel- 
wert  und  Streuung  zu  eliminieren. 

Typisch  fiir  einen  Sprechgesunden  ist  hier  wie  im  Beispiel  gem.  Abbildung  6.6  die 
hochste  gemessene  Silbenrate  bei  der  Silbenwiederholungsaufgabe  /bada/  sowie  die 
grofite  gemesse  Variation  der  Silbengrenzenlautheit  bei  /dana/.  Bei  einem  sprechgestor- 
ten  Patienten  wird  in  der  Praxis  bei  den  Silbenraten  haufig  eine  ahnliche  Verteilung 
beziigiich  der  einzelnen  Aufgaben  wie  bei  einem  Sprechgesunden  beobachtet,  jedoch 
insgesamt  auf  einem  niedrigeren  Niveau. 


Das  Menii  DRUCKBN  stellt  diverse  Varianten  der  Druckausgabe  zur  Verfugung  wie 
Farbdruck,  Schwarz- WeiS-Druck  oder  Kopie  in  die  Zwischenablage  fiir  die  weitere 
Verwendung  in  klinischen  Berichten  usw. 

Das  Menii  WIEDERGABE  erlaubt  dem  Untersucher  die  akustische  Wiedergabe  bei 
gleichzeitiger  Betrachtung  der  Auswertegrafiken. 


179 


6.  Realisierang  des  Modiils  SCHNELLE  SILBENWIEDBRHOLUNGEN 

6. 2. 3. 2.  Automatischer  Datenexport 

Mit  Aufruf  cler  Auswertung  iind  damit  synchron  zur  Darstellung  des  ersten  Auswer- 
tungsblattes  gem.  Abbildung  6.4  werden  automatisch  zwei  DateiiHles  mit  alien  relevanten 
Ergebnisseii  im  entsprechenden  Arbeitsverzeichnis  angelegt: 

•  Silbenfile:  Datenfile  mit  der  Endung  ...sil.txt;  es  enthalt  im  wesentlichen  Silben- 
dauern  und  Lautheiten  jeder  realisierten  Einzelsilbe  der  6  Silbenwiederholungsauf- 
gabeii; 

•  Statistikfile;  Datenfile  mit  der  Endung  ...sta.txt\  es  enthalt  im  wesentlichen  die 
Mittelwerte  der  Silbendauern  und  Lautheiten,  berechnet  fiir  jede  der  Silbenwie- 
derholungsaufgaben.  Wurden  Auswerteblocke  (eiehe  6.2.2)  definiert,  gehen  nur  die 
Silben  iimerhalb  dieser  Blocke  in  die  statistischen  Berechnungen  ein. 

Beide  Datenfiles  sind  ASCII-codiert  und  damit  imiversell  zur  weiteren  Nutzung  oder 
Weiterverarbeitung  mit  alternativen  Softwareprodukten  einsetzbar. 


Format  des  Siibenfiles:  Das  Silbenfile  enthalt  ein  Zahlenfeld  in  Matrixdarstellung,  wp- 
bei  jeder  Silbenwiederholungsaufgabe  eine  separate  Matrixzeile  zugeordnet  ist.  Jede  Zeile 
enthalt  in  den  ersten  vier  Feldern  (Spalten)  folgende  Informationen: 

•  Feld  01:  Stets  mit  der  Zahl  1  belegt 

•  Feld  02:  Silbenwiederholungsaufgabe,  codiert  gem.  Tabelle  6.1 

•  Feld  03:  Gesamtdauer  der  Silbenwiederholungsaufgabe  in  ms  (vom  Beginn  der  er¬ 
sten  bis  zum  Elide  der  letzten  Silbe  der  Aufzeichnung) 

•  Feld  04:  Anzahl  der  segmentierten  Silben  iimerhalb  der  Aufzeichnung 

Pro  realisierter  Silbe  der  laufenden  Nummer  i  wird  nun  jeweils  ein  3-elementiger  Daten- 
Record  angehangt.  Damit  ergeben  sich  fiir  die  Felder  Nr.  4f  -f  1 . . .  4i  -f  4  die  folgenden 
Belegungen: 
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•  Feld  4i  +  l:  (Absolute)  Startzeit  der  Silbe  Nr.  i  in  ms 

•  Feld  4i  4-  2:  (Netto-)Silbendauer  der  Silbe  Nr.  i  in  nis 

•  Feld  4i  +  3:  Psychoakustische  Lautheit  an  der  linken  Grenze  der  Silbe  Nr.  i  in  dB 

•  Feld  4i  4-  4:  Psychoakustische  Lautheit  im  Kern  der  Silbe  Nr.  i  in  dB 

Das  Silbenfile  bzw.  die  enthaltene  Datenmatrix  verfugt  also  iiber  eine  variable  Anzahl 
von  Spalten,  die  durch  die  Silbenwiederholungsaufgabe  mit  der  grofiten  Anzahl  realisier- 
ter  bzw.  segmentierter  Silben  bestiinmt  wird. 


-■Format  des  Statistlkfiles;  Das  Statistikfile  enthalt  ebenfalls  ein  Zahlenfeld  in  Ma- 
trixdarstellung,  wobei  hier  nicht  mehr  jede  Silbe  einzeln,  sondern  nur  noch  abgeleite- 
te  statistische  Grofien  als  repr^entative  Parameter  fur  die  Gesamtheit  aller  Silben  der 
Silbenwiederholungsaufgabe  eingehen.  Die  Statistik  umfalJt  nur  diejenigen  Silben,  die  in- 
nerhalb  der  eingestellten  Auswerteblocke  liegen  (siehe  hierzu  6.2,2  auf  Seite  171).  Wurde 
kein  Auswerteblock  gewahlt,  werden  alle  Silben  der  Aufzeichnung  beriicksichtigt. 

Jede  Zeile  dieser  Matrix  enthalt  in  den  ersten  vier  Feldern  (Spalten)  in  Analogic  zur 
vorhergehenden  Darstellung  die  folgenden  Informationen: 

•  Feld  01;  Stets  mit  der  Zahl  1  belegt 

•  Feld  02;  Silbenwiederholungsaufgabe,  codiert  gem.  Tabelle  6.1 

•  Feld  03:  Gesamtdauer  des  eingestellten  Auswerteblocks  in  ms  (voin  Beginn  der 
ersten  bis  zum  Ende  der  letzten  Silbe  des  Auswerteblocks) 

•  Feld  04:  Anzahl  der  segmentierten  Silben  iimerhalb  des  Auswerteblocks 

Die  weiteren  Felder  (bzw.  Spalten  der  Matrix)  sind  mit  folgenden  Parametern  belegt 
(giiltig  jeweils  nur  fiir  die  Silben  iimerhalb  der  vordefinierten  Auswerteblocke); 

•  Feld  05:  Linearer  Trend  der  Bruttosilbendauern  in  ms/sec  (positives  Vorzeichen  bei 
Zunahme  der  Bruttosilbendauern) 
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Silbenwiederholungsaufgabe 

Code 

/*“/ 

1 

/da/ 

2 

M/ 

3 

/bada/ 

4 

/na/ 

5 

/dana/ 

6 

Tabelle  6.1.:  Identifizierung  der  Silbenwiederholungsaufgabe  anhand  der  Codierung  im 
Feld  02  von  Silben-  und  Statistikfile 

•  Feld  06;  Standardabweichung  der  trendbereinigten  Bruttosilbendauern  in  ms 

•  Feld  07:  Mittlere  Bnittosilbenrate  (entsteht  durcli  Mittelung  der  Kehrwerte  der 
Bruttosilbendauern)  in  Hz 

•  Feld  08;  Standardabweichung  der  Bnittosilbenrate  in  Hz 

•  Feld  09:  Mittlere  Pausendauer  in  ms 

•  Feld  10:  Standardabweichung  der  Pausendauer  in  ms 

•  Feld  11:  Linearer  TVend  der  psychoakustischen  Lautheiten  in  den  Silbenkernen 

•  Feld  12;  Standardabweichung  der  trendbereinigten  psychoakustischen  Lautheiten 
in  den  Silbenkernen 

•  Feld  13:  Standardabweichung  der  psychoakustischen  Lautheiten  in  den  Silbenker¬ 
nen 

•  Feld  14:  Standardabweichung  der  psychoakustischen  Lautheiten  an  den  linken  Sil- 
bengrenzen 

Das  Statistikfile  bzw.  die  darin  enthaltene  Datenmatrix  verfugt  also  im  Gegensatz  zum 
Silbenfile  fiber  eine  feste  Anzahl  von  (14)  Spalten. 


182 
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6.3.  Technische  Reallslerung:  Entwickelte  Verfahren  und 
Algorithmen 

Die  zu  losende  technische  Aufgabenstellung  liegt  in  dem  Modul  SCHNELLE  SILBEN- 
WIEDERHOLUNGEN  in  der  akustischen  Analyse  der  artikulatorischen  Diadochokinese, 
‘..also  der  Fahigkeit,  eine  vorgegebene  Silbenfolge  so  rasch  wie  mbglich  zu  wiederholen.  Da- 
.^J^ei  liegt  der  Schwerpunkt  in  der 

•  akustischen  Analyse  der  Wiederholungsrate, 

•  akustischen  Analyse  der  Regehnaftigkeit  des  Zeitmusters, 

•  akustischen  Analyse  der  Kontinuitat  der  Amplituden  in  den  Silbenkernen  und  an 
den  Silbengrenzen. 

Unter  dem  Begriff  Zeitmuster  soli  im  Folgenden  die  Information  iiber  die  zeitliche  Lage 
von  Silbenkernen,  Silbengrenzen  und  Silbendauern  verstanden  werden.  Der  Losungs- 
ansatz  zur  Analyse  des  Zeitmusters  fiihrt  wie  schon  im  vorangehenden  Kapitel  in  das 
Gebiet  der  Spracherkennung,  da  hier  unabhangig  vom  gewahlten  Erkenmmgsprozefi 
bereits  in  der  Vorverarbeitungsstufe  die  Problematik  der  Halbsilben-,  Silben-  oder 
Einzelwortsegmentierung  betrachtet  werden  muR  ([LeaSO]). 

Die  Erkennung  von  Silbengrenzen  streift  zusatzlich  eine  typische  Problematik  der 
Biosignalverarbeitung,  namlich  die  korrekte  Detektion  von  Nutzsignalen  in  verrauschter 
Signalumgebung.  Von  Interesse  ist  hier  die  Beantwortung  der  Frage,  wann  sich  mefibare 
akustische  Signalparameter  deterministisch  und  signifikant  andern  bei  einer  gleichzeitig 
moglichst  hohen  Robustheit  gegenuber  stochastischen  Signalveranderungen  z.B.  durch 
Rauschpeaks,  Artefakte  usw. 


6.3.1.  DQtektion  von  SilbQnkernGn,  Silbengrenzen  und  Sprechpausen 

Der  vorgestellte  Segmentierungsalgorithmus  fuHt  auf  einer  von  RUSKE  und  BEHAM 
in  [Rus92]  vorgestellten  Vorverarbeitung  durch  Berechnung  der  modifizierten  Lautheits- 
funktion.  Durch  Anwendung  dieses  Verfahrens  entstehen  Paraineter-Zeitverlaufe,  die  die 
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menscliliche  Lautheitsempfindung  uber  eine  Modellierung  der  physiologischeii  Vorgange 
im  Gehor  nachbilden  und  daniit  fiir  die  naclifolgende  algorithmische  Silbensegmentierung 
eine  optimale  Detektionsgrundlage  bereitstellen. 

Das  Berechnungsverfahren  zur  Gewinnung  der  beiden  Lautheitsverlaufe  und  zur  Ablei- 
tung  der  Orte  von  Silbenkernen  und  Silbengrenzen  ist  identisch  zu  Kapitel  5.3.1  auf 
Seite  142  ff.  und  wird  daher  hier  nicht  nielir  weitergehend  erlautert.  Die  erforderlichen 
psychoakustischen  Grundlagen  des  Horens,  die  Besdireibung  des  Punktionsmodells  der 
Lautheitsempfindung  mit  der  Ableitung  der  Lautheitsfunktion  und  der  modifizierten 
Lautlieitsfunktion  sowie  die  optimale  Detektion  von  Silbenkernen  und  Silbengrenzen  in 
verrauschter  Signalumgebung  finden  auch  in  diesem  Modul  Anwendung. 

6.3.2.  Analyse  des  Zeitrasters  schneller  Silbenwiederholungen 

Nach  Abschlu£  der  automatischen  -  ggf.  auch  manuell  korrigierten  -  Segmentierung  sind 
die  Orte  der  Silbenkerne  und  der  Silbengrenzen  festgelegt.  Das  MODIAS-System  ist  nun 
in  der  Lage,  akustische  Ereignisse  mit  silbischein  Charakter  innerhalb  der  Aufzeichnung 
zu  detektieren  und  sovi^ohl  in  Bezug  auf  die  Ereigniszeit  als  auch  in  Bezug  auf  die  rele- 
vante  psychoakustische  Empfindungsgrofie  der  Lautheit  zu  analysieren. 

Fiir  die  folgende  Betrachtung  liege  eine  akustische  Reprasentation  einer  realisierten  Sil- 
bcnwiederholungsaufgabe  vor.  Die  Segmentierung  in  K  Silben  sei  korrekt  erfolgt.  Die 
weitere  Darstellung  zeigt  die  schrittweise  Ermittlung  der  akustischen  Parameter 

•  Nettosilbendauer, 

•  Bruttosilbendauer, 

•  Normierte  psychoakustische  Lautheit  iin  Silbenkern, 

•  Normierte  psychoakustische  Lautheit  an  der  linken  Silbengrenze 

auf,  die  fiir  die  Ergebnisprasentation  in  variierender  Koinbination  Verwendung  finden 
und  eine  Gnmdlage  fiir  vi^eitere  Analysen  bilden. 

MODIAS  erstellt  fiir  jede  Silbenwiederholungsaufgabe  eine  Silbenmatrix  5,  deren  Zeilen 
mit  den  Silben  i  korrespondieren.  Die  3  Spalten  beinhalten  die  detektierten  Zeitpunkte 
fiir  Silbenbeginn  Silbenkern  (tj.z)  und  Silbenende  Per  definitionem  beginnt 
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;  Jede  Avifzeichnung  niit  der  ersten  Silbe  bei  t  =  0,  d.h.,  fiir  alle  weiteren  Betrachtungen 

.^gilt  ti,i  =  0. 


Die  ill  der  Auswertung  des  MODIAS-Modules  u.a.  dargestellte  NETTOSILBBNDAUER 
ergibt  sich  dutch  silbenweise  Differenzbildung  zwischen  den  Zeitpunkten  von  Silbenende 
und  Silbenanfang  bzw.  Tnettoi  =  it,3  - 

Damit  entsteht  pro  Silbenwiederholungsaufgabe  aus  den  K  Nettosilbendauern  ein  Vektor 
Tnetto  gemafi  folgender  Berechnungsweise; 


Der  Parameter  BRUTTOSILBENDAUER  ergibt  sich  dutch  Differenzbildung  jeweils  zwi- 
sclien  den  Zeitpunkten  aufeinanderfolgender  Silbenbegiiine  bzv/.  Thvuttoi  =  -  U,\- 

Damit  entsteht  pro  Silbenwiederholungsaufgabe  aus  den  K  -  I  Bruttosilbendauern  ein 
Vektor  Tbrutto: 


Tbrutto  = 


Tbruttoi 

Tbrutt02 


h,\  -  <2,1 


<2,1 

<3,1  -  <2,1 


\Tbruttox...i j  \tK,i  -  tK-1,1 1  W/c.i -</<•-!, 1 J 


Die  psychoakustischen  Lautheiten  an  den  Orten  der  Silbenkerne  und  der  Silbengrenzen 
ergeben  sich  beide  aus  dem  Verlauf  der  Lautheit  N{t).  Hierbei  ist  anzumerken,  dal?  bei 
der  zuvor  durchgefiihrten  Segmentierung  die  Orte  der  Silbenkerne  dutch  die  Detektion 
lokaler  Maxima  der  modifizierten  Lautheitsfunktion  A^rn(<)  bestimmt  worden  waren,  die 
Orte  der  Silbengrenzen  jedoch  dutch  Detektion  lokaler  Minima  der  korrespondierenden 
Lautheitsfunktion  N{t). 

Dutch  Einsetzen  der  Ereigniszeitpunkte  der  Silbenkerne  entsteht  pro  Silbenwiederho¬ 
lungsaufgabe  der  Vektor  Nkern,  bestehend  aus  den  K  Lautheiten  der  Silbenkerne 
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•^(<1,2)  •  •  •  N{tK^2)  cUuch  folgenclen  Zusammenhang: 


j  Nkerni  ^ 

Nkei'7i  = 

Nkerji2 

\^Nkerni^  j 

{^Ka) } 

(6.4) 


Nach  Normienmg  und  Logarithmierung  ergibt  sich  schlieBlich  der  gesuchte  akustische 
Parameter  der  NORMIERTEN  PSYCHOAKUSTISCHEN  LAUTHEITEN  an  den  Orten 
der  Silbenkerne  Nkern  (dB-skaliert): 


Nkeim  ~  10  log 


* 

^Nkerni 

1 

Nkern2 

»  =  10  log  < 

1 

K 

'k  £  Nkerrii 

^  £  Nkerui 

^NkeruK  j 

(6,5) 

Die  psychoakustischen  Lautheiteii  an  den  Orten  der  jeweils  linken  Silbengrenzen  erge- 
ben  sich  analog  durch  Einsetzen  der  Ereigniszeitpunkte  der  Silbengrenzen  in  die  Laut-. 
heitsfunktion  N{t).  Damit  entsteht  pro  Silbenwiederholungsaufgabe  der  Vektor  Ngren,; 
bestehend  aus  den  K  Lautheiten  an  den  linken  Silbengrenzen  . . .  N{tK,i)  durch 

folgenden  Zusammenhang: 


(6.6) 


^  Ngreni 

Ngren  = 

Ngren2 

JV(<2,i) 

^Ngrenji  j 

\N{tK,x)) 

Nach  Normienmg  und  Logarithmierung  ergibt  sich  schliefilich  der  gesuchte  akustische 
Parameter  der  normierten  psychoakustischen  Lautheiten  an  den  Orten  der  linken  Silben¬ 
grenzen  Ngren  (dB-skaliert); 


^  Ngreni  ^ 

Ngren  =  10  log  < 

1 

Ngren2 

>  =  lOlog  . 

1 

K 

■R  E  Ngreni 

K 

R  E  Ngreni 
»=i 

\ 

^NgrenK  j 

\mKA)J 


(6.7) 

Mit  diesen  4  abgeleiteten  Parametern  lassen  sich  die  beiden  ersten  Auswertungsblatter 
des  Moduls  gem.  Abbildung  6.4  und  6.5  hinreichend  interpretieren.  Zusatzlich  werden 
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in  Abbilclung  6.4  nodi  die  beiden  Kurvenverlaufe  fiir  Bruttosilbendauer  mid  Silbenkern- 
Jautheit  jeweils  einer  statistisdien  Verlaufsanalyse  unterzogen,  um  sowohl  eine  Aussage 
uber  einen  eventuellen  Auf-  bzw.  Abwartstrend  (Trendparaineter  Ti'eiid)  bzw.  uber  die 
mittlere  Sdiwankung  um  diesen  Ti-end  (Schwankungsparameter  STD]  treflPen  zii  kdimen. 
Der  Trendparameter  ergibt  sidi  durch  eine  lineare  Regressionsanalyse  der  entspredien- 
den  Verlaufe,  er  tragt  die  Dimension  ms/sec  bzw.  dB/sec. 

Der  Schwankungsparameter  ergibt  sich  durch  Berechming  der  Standardabweichung  der 
jeweils  trendbereinigten  Kurven.  Er  tragt  damit  die  Dimension  ms  bzw.  dB. 


Der  in  Abbildung  6.6  grafisch  dargestellte  Parameter  MITTLERE  BRUTTOSILBEN- 
RATE  mRbrutto  in  der  Dimension  Hz  ist  der  Kehrwert  der  mittleren  Bruttosilbendauer 
in  Sekunden  und  stellt  damit  ein  Ma£  fiir  das  Sprechtempo  dar.  Letztere  ergibt  sich 
ihrerseits  durch  Mittelwertbildung  uber  alle  i  =  1 . , .  AT  -  1  Bruttosilbendauern  TbruttOi 
der  jeweiligen  Silbenwiederholungsaufgabe. 


mRbrutto  = 


1 

4  X)  TbruttOi 
»=l 


(6.8) 


Der  Parameter  MITTLERE  PAUSENDAUER  mTpaus  spiegelt  die  durchschnittliche 
Pausendauer  zwischen  den  einzelnen  Silben  wider.  Die  Pauseudauern  zwischen  zwei  Je¬ 
weils  aufeinanderfolgender  Silben  lessen  sich  durch  Differenzbildung  zwischen  den  Zeit- 
punkten  vom  jeweiligen  Ende  der  vorhergehenden  zum  Anfang  der  darauffolgenden  Silben 
bestimmen,  bzw.  gilt  Tpausi  ~  -  *1,3. 

Damit  entsteht  pro  Silbenwiederholungsaufgabe  aus  den  K-1  Pausendauern  ein  Vektor 
Tpaus: 


^  Tpaus  1 

^  <^2,1  "  fl,3 

Tpaus  = 

Tpaus2 

= 

^3,1  -  <2,3 

\Tpausj(..i  y 

-  </<•-!, 3y 

Fiir  die  gesuchte  mittlere  Pausendauer  mTpaus  gilt  dann: 


1  ^ 

mTpaus  =  —  ^  Tpausi 


(6.10) 


Der  Parameter  VARIATIONSKOEFFIZIENT  DER  KERNLAUTHEITEN  vNkern 
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sfcellt  ein  SchwaiikungsmaB  fiir  den  zeitlichen  Verlauf  der  normierten  und  logarithniierten 
psychoakustischen  Lautheiten  der  Silbenkerne  Nk:er7ii  dar.  Der  Variationskoeffizient  ist 
in  statistischem  Sinne  ein  StreuungsniaR,  welclies  die  Standardabweichung  am  Mittelwert 
relativiert  ([Bor99|).  Da  die  Lautheiten  Nkei'rii  aufgrund  der  Berechnung  gem.  Gleichung 
6,5  bereits  mittelwertfrei  sind,  vereinfacht  sich  die  Berechnung  von  vNkern  zu: 

K 

(6.11) 

t=i 

Der  Parameter  VARIATIONSKOEFFIZIENT  DER  (linken)  KERNLAUTHEITEN 
vNgren  steilt  analog  ein  SchwankungsmaR  fiir  den  zeitlichen  Verlauf  der  normierten 
und  logarithniierten  psychoakustischen  Lautheiten  Ngreni  der  jeweils  linken  Silbengren- 
zen  dar.  Bedingt  durch  die  Mittelwertsfreiheit  von  Ngrerii  gemaS  der  Berechnung  nach 
Gleichung  6.7  gilt:  _ 

K 

'^Ngren}  (6.12) 

t=i 

6.4.  Anwendungen  und  Ergebnisse 

In  der  Entwicklungsgruppe  klinische  Neuropsychologie  des  Stadtischen  Krankenhauses 
Miinchen  wurde  zunachst  in  einer  Pilotstuclie  der  Alterseffekt  der  Diadochokineseleistung 
an  sprechgesunden  Probanden  gepriift.  Im  Anschlufi  daran  folgte  eine  zweite  Studie  mit 
dem  Ziel,  die  Diadochokineseleistung  von  Patienten  mit  neurogenen  Sprechstorungen  mit 
der  gesunder  Probanden  zu  vergleichen. 

Die  Ergebnisse  der  Pilotstudie  sind  in  Abbildung  6.7  dargestellt. 

Sie  konnen  wie  folgt  zusanimengefafit  werden: 

1.  Die  Silbenwiederholungsrate  ist  am  hbchsten  im  jungen  Erwachsenenalter,  danach 
fallt  sie  mit  steigendem  Alter  kontinuierlich  ab. 

2.  Manner  erreichen  insgesamt  hohere  Silbenwiederholungsraten  als  Frauen  (Regres- 
sionslinie  oberhalb!). 

3.  Der  Alter-seffekt  ist  bei  Mannern  schwacher  ausgepragt  (Regressionslinie  flacher!). 


vNgren  = 


K 


vNkern  ~ 


L 

K 
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Alter  [J1 


Abbildung  6.7.:  Ergebnisse  der  Pilotstudie  zur  Prufung  von  Alterseffekten  bei  der  arti- 
kulatorischen  Diadochokinese.  Aufgetragen  sind  das  Alter  (Abszisse)  ge- 
geniiber  der  erzielten  Silbenwiederholungsrate  (Ordinate).  Die  Gruppe 
weiblich  ist  mit  ausgefullten  Datenpunkten  (durchgezogenen  Regressi- 
onslinie)  markiert,  die  Gruppe  mdnnlich  entsprechend  mit  unausgefull- 
ten  Datenpunkten  (gestrichelte  Regressionslinie). 

6.4,1.  Untersuchungszlel 


Ziel  der  Folgeuntersuchung  war  es,  die  Diadochokineseleistung  von  zwei  Patientengruppen 
mit  Dysarthrie-  bzw.  Sprechapraxiesyndrom  zu  vergleichen  und  einer  Kontrollgruppe 
sprechgesunder  Probanden  gegenliberzustellen. 


6.4.2.  Stichprobe  bzw.  Patientengruppe 

Es  wurden  gesunde  Kontrollpersonen  im  Alter  zwischen  20  und  75  Jahren  sowie  Patienten 
mit  Dysarthrie  und  Sprechapraxie  untersucht, 
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6.4.3.  Ergebnisse 

Die  bisher  noch  nicht  publizierten  Ergebnisse  der  Folgestudie  (durchgefiihrt  dutch 
Bettina  Brendel  und  Wolfram  Ziegler,  EKN,1999)  sind  in  Abbildung  6.8  dargestellt. 


A'jrgtb* 


Abbildung  6.8.:  Die  Abbildung  zeigt  die  Ergebnisse  der  Folgestudie  (Syndromvergleich). 

Aufgetragen  sind  die  Silbemviederholungsaufgaben  (Abszisse)  gegeniiber 
der  erzielten  Silbenwiederholungsrate  (Ordinate).  Dargestellt  sind  die  3 
resultierenden  Kurvenverlaufe  fiir  Sprechgesunde  (durchgezogen)  sowie 
fur  Dysarthrie-  (gepunktet)  und  Sprechapraxiepatienten  (gestrichelt). 

Bei  den  sprechgesunden  Probanden  zeigt  eich  ein  Kurvenverlaiif,  der  sehr  anschaulich 
interpretiert  werden  kann.  Die  Silbenfolge  /ba/  enthalt  den  bilabialen  Verschlufilaut 
/b/f  bei  dem  beide  Lippen  verschlossen  sind.  Rhythmus  und  Geschwindigkeit  werden 
hier  im  wesentlichen  durch  die  Tiagheit  der  Lippen  und  in  geringem  Umfang  auch  dutch 
Hebung  und  Senkung  des  Unterkiefers  beeinfluBt.  Die  Silbenfolge  /da/  hingegen  enthalt 
den  alveolaren  Verschlufilaut  /d/,  der  durch  den  hochbeweglichen  vorderen  Zungenteil 
realisiert  wird.  Damit  werden  bei  /da/  geringfiigig  hohere  Wiederholungsraten  erzielt 
als  bei  /ba/ 

Bei  der  Silbenfolge  /ga/  wird  der  intermittierende  Verschlufi  durch  den  hinteren  Teil 
der  Zunge  (Zungenrucken)  realisiert.  Durch  die  grofiere  Masse  und  damit  die  geringere 
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Beweglichkeit  des  Zungenriickens  ist  die  Wiederholungsrate  bei  /ga/  geringer  als  bei 
/ba/  und  /da/. 

Die  koniplexere  Silbenfolge  /bada/  stellt  iin  Prinzip  eine  Mischung  der  Silbenfolgen 
/ba/  und  /da/  dar.  Die  Bewegungen  von  Lippen  und  Zunge  miissen  hier  jedocli  genau 
mit  der  halben  Geschwindigkeit  realisiert  werden,  urn  eine  gleiche  Wiederholungsrate 
zu  erzielen.  Durch  Koarfcikulation  tritt  ein  Beschleunigungseffekt  auf,  da  wahrend  der 
Lippenoffnung  die  Zunge  schon  zum  artikulatorischen  Zielpunkt  wandert.  Dadurch 
ergibt  sich  bei  dieser  Aufgabe  die  hochste  Wiederholungsrate. 

Die  Silbenfolge  /na/  erfordert  die  gleiche  Verschluftbildung  bzw.  Artikulationsstelle 
wie  /da/,  nur  ist  hier  das  Gaumensegel  standig  abgesenkt  und  der  Nasenrauni  ist  als 
zusatzlicher  Resonator  an  den  Mundraum  gekoppelt.  Die  Wiederholungsrate  ist  bei  /na/ 
in  etwa  gleich  wie  bei  /da/,  da  das  Tempo  in  beiden  Fallen  dutch  die  Beweglichkeit  der 
Zungenspitze  bestimmt  ist. 

Bei  der  Silbenfolge  /dana/  ist  dieselbe  Zungenbewegung  wie  bei  /da/  und  /na/ 
erforderlich.  Bei  dieser  Folge  mufi  jedoch  das  Gaumensegel  im  Wechsel  fiir  die  Silbe  /da/ 
gehoben  und  fiir  die  Silbe  /na/  gesenkt  werden.  Das  Gaumensegel  bewegt  sich  daher 
zeitlich  perfekt  koordiniert  mit  einer  Pi-equenz,  die  der  halben  Silbenwiederholungsrate 
entspricht.  Offenbar  bewirkte  diese  Koordinationsanforderung  bei  den  gesunden  Pro- 
banden  keine  wesentliche  Verlangsamung  gegeniiber  den  weniger  komplexen  Aufgaben 
/da/  und  /na/. 

Zusammenfassend  bedeutet  das  fiir  die  zu  erwartenden  Silbenwiederholungsraten 
{bei  sprechgesunden  Probanden),  dafi  die  Silbenfolgen  /da/,  /na/  und  /dana/  in 
■etwa  gleich  schnell,  die  Silbenfolge  /ga/  hingegen  langsamer  und  die  Silbenfolge  /bada/ 
s.chneller  realisiert  werden.  Die  mit  MODIAS  durchgefiihrten  Messungen  gem.  Abbildung 
6.8  bestatigen  exakt  diese  Erwartung. 

Bei  Patienten  mit  neurogenen  Sprechstorungen  tritt  ein  sehr  interessanter  Effekt 
auf.  Sofort  erkennbar  ist  die  bei  alien  Silbenwiederholungsaufgaben  festgestellte  Ver¬ 
langsamung  gegenuber  der  Normgruppe.  Dies  gilt  fiir  beide  Patientengruppen. 

Die  Patientengruppe  der  Sprechapraktiker  zeigte  jedoch  einen  markanten  Profilunter- 
schied.  Wahrend  bei  Sprechgesunden  -  wie  bereits  dargestellt  -  die  Silbenwiederholungs¬ 
rate  dutch  den  koartikulativen  Effekt  bei  /bada/  deutlich  hohere  Werte  erreicht  hat  als 
bei  /ga/,  fallt  die  Wiederholungsrate  bei  Sprechapraxiepatienten  hingegen  deutlich  ab. 


191 


6.  Realisienwg  cles  Moduls  SCHNELLE  SILBENWIEDERHOLUNGEN 
Der  gleiche  EfFekt  tritt  bei  /dana/  auf. 

Patienten  mit  Sprechapraxiesynclrom  bewaltigen  demnach  die  Silbenwiederholungs- 
aufgaben  mit  einfachen  Silbenfolgen  (mit  einem  einfachen  repetitiven  Programm) 
vergleichsweise  leicht.  Probleme  treten  ofFensichtlich  immer  dann  auf,  wenn  artikula- 
torische  Wechselbewegungen  stattfinden.  Dies  kann  als  Beleg  fiir  die  Vermutung  einer 
Programmierungsstorung  als  Grundlage  des  Syndroms  der  Sprechapraxie  gewertet 
werden  ([ZieOl]). 
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FRIKATIVARTIKULATION 


Das  diagnostische  und  technische  Konzept  des  Moduls  FRIKATIVARTIKULATION  wur- 
de  bereits  im  Kapitel  3  dargestellt.  Nach  einer  kurzen  Erlauterung  der  relevanten  dia- 
jgnostischen  Fiagestellungen  widmet  sich  dieses  Kapitel  nun  der  konkreten  Realisierung 
innerhalb  des  MODIAS-Systems.  Der  interdisziplinare  Charakter  der  Aufgabenstellung 
laKt  hierbei  eine  Zweiteilung  sinnvoll  erscheinen  in  die 

•  klinisch/diagnostisch  relevanten  Anteile,  wie  z.B.  Untersuchungsprotokoli,  gewahl- 
tes  Untersuchungsmaterial,  Ablauf  einer  Untersuchungssitzung  und  Auswertung 
bzw.  Darstellung  der  Ergebnisse  sowie  in 

•  technisch  relevanten  Anteile,  wie  z.B.  entwickelte  technische  Verfahren  und  Algo- 
rithmen,  die  zu  der  ingenieurwissenschaftlichen  Losung  der  klinischen  Problemstel- 
lung  gefiihrt  haben. 

Der  Weg  von  der  Problemstellung  zur  technischen  Problemlosung  fiihrt  in  diesem 
Modul  iiber  die  Verfahren  der  digitalen  Sprachsignalanalyse  hinaus  in  den  Bereich  der 
kunstlichen  Intelligenz.  Ausgehend  von  dem  Ansatz,  die  Glite  der  Frikativartikulation 
sowohl  auditiv  iiber  Expertenurteile  als  auch  akustisch  durch  Analyse  der  Sprachsigna- 
leigenschaften  beurteilen  zu  wollen,  wird  zunachst  der  Entwurf  und  die  Realisierung  von 
zwei  ausgewahlten  Mustererkennern  vorgestellt.  Ein  Mustererkenner  wurde  dabei  auf 
die  Klassifikation  von  Frikativen  gegeniiber  ausgewahlten  Vokalen  optimiert,  der  andere 
Mustererkenner  auf  die  Klassifikation  der  einzelnen  Prikativtypen  untereinander. 
Dargestellt  werden  dabei  die  typischen  Phasen  eines  Mustererkenner-Designs  von 
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der  Entwurfsstrategie  iiber  die  Vorverarbeitung  und  Merkmalsextraktion  bis  hiii  zur 
Klassifikationsstrategie.  Die  eigentliche  Beurteilung  der  Frikativartikulation  erfolgt  iiber 
die  Beurteilung  des  Klassifikationsverhaltens  dieser  Mustererkenner,  also  auf  der  Basis 
einer  weitestgehend  automatisierten  akustisch-phonetischen  Analyse. 

Parallel  dazu  wird  ein  Verfahren  vorgestellt,  welches  zusatzlich  die  auditive  Priifung 
durch  Expertenurteile  gestattet  und  einen  direkten  Vergleich  zwischen  den  beiden 
Entscheidern,  also  Mensch  und  Maschine,  ermdglicht. 

Jede  der  beiden  Mustererkenner-Realisierungen  erforderte  entsprechendes  TVaining  an 
sprechgesunden  Probanden.  Diese  systematische  und  iiberwachte  Phase  der  Gewinnung 
von  akuetischen  Referenzmerkinalen  (supervised  learning)  ist  fiir  den  spateren  Erken- 
nungsprozeU  von  fundamentaler  Bedeutung,  da  die  Stichprobe  selbst  reprasentativ  sein 
mufi  und  die  hieraus  erhobenen  Daten  artefaktfrei  sein  miissen.  Die  Gewinnung  von 
Trainingsdaten  anhand  Sprechgesunder  wurde  im  Rahmen  einer  Reihenuntersuchung 
an  der  Universitat  der  Bundeswehr  Miinchen  und  der  Entwickhingsgruppe  Klinische 
Neuropsychologie  Miinchen-Bogenhausen  durchgefiihrt. 


7.1.  Diagnostlsche  Fragestellungen 

Der  Haupteil  der  Diagnostik  dysarthrischer  Storungen  beruht  auf  einer  auditiven  Analyse 
der  Aufierungen  eines  Patienten.  Sie  lalJt  sich  systematisch  in  die 

•  Diagnostik  sichtbarer  Storungen  (z.B.  pathologischer  Atmungstyp,  Storungen  von 
Tonus  und  Bewegungsfahigkeit  von  Lippen  und  Kiefer), 

•  Diagnostik  phonetischer  Stdrungsmerkmale  der  Funktionskreise  Sprechatmung, 
Phonation  und  Artikulation, 

•  Bewertung  der  Verstandlichkeit 

untergliedern.  Die  beiden  erstgenannten  Varianten  erlauben  keine  Ruckschliisse  auf  die 
daraus  resultierenden  kommunikativen  Einschrankungen,  wahrend  die  Bewertung  der 
Verstandlichkeit  wohl  eines  der  wichtigsten  Kriterien  hierfiir  darstellt.  Die  Verstandlich¬ 
keit  vieler  Patienten  init  dysarthrischen  Storungen  ist  zum  Teil  erheblich  vermindert. 
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Ein  Hauptproblem  in  der  Verstandlidikeitsbewertung  ist  die  Vielzahl  an  Faktoren,  die  das 
Verstehen  eines  dysarthrischen  Patienten  beeinflussen  konnen,  z.B.  die  Horfahigkeit  und 
Aufmerksamkeit  des  Horers,  die  Vertrautlieit  mit  dem  Patienten,  die  Vertrautheit  mit 
dem  MeRverfahren  oder  auch  die  akustische  Qualitat  der  Sprachiibertragung  {(Zie98a]). 
Die  Bewertung  ist,  auch  infolge  dieser  Faktoren,  subjektiv  und  haufig  fehlerbehaftet. 

Die  maschinelle  Spracherkennung  bietet  prinzipiell  die  Mdglichkeit,  die  Aufierungen  des 
Patienten  dutch  einen  Computer  objektiv  und  mit  konstanten  Kriterien  identifizieren 
zu  lessen.  Die  bisherigen  niaschinellen  Verfahren  sind  jedoch  nicht  ausreichend  valide 
([Zie98a]). 

Das  vorliegende  MODIAS-Modul  ist  ein  Versuch,  anhand  sorgfaltig  gewahlter  Einzelwor- 
ter  und  beschrankt  auf  die  Lautkiasse  der  PVikative,  die  Fahigkeit  des  Patienten  zur 

,  •  kontrastreichen  Artikulation  von  3  verschiedenen  Frikativen  gegeniiber  einer  jeweils 

vokalischen  Lautumgebung  {Diskriminanz  Vokal/Frikativ)  und  auch  zur 

•  ausreichenden  Unterscheidung  dieser  3  Fiikative  (FYikativ-Differenzierting) 

anhand  der  Verhaltens  spezifischer  Mustererkennungssysteme  zu  bemessen.  Aufgrund  der 
ungewissen  Validitat  wurde  parallel  dazu  eine  auditive  Komponente  implementiert,  die 
einen  unmittelbaren  Vergleich  der  beiden  Entscheidungsinstanzen  Mensch  und  Maschine 
gestattet. 


7.2.  Aufbau  und  Gestaltung 

7.2.1.  Untersuchungsprotokoll  und  -material 

Der  Patient  hat  in  diesem  Modul  die  Aufgabe,  die  beiden  ausgewahlten  Einzelwort- 
Enseinbles 

•  lassen,  Laschen,  lachen  bzw. 

•  Massen,  Maschen,  machen 

nachzusprechen.  Jedes  Einzelwort  wird  dabei  je  3  mal  wiederholt.  Die  beiden  Einzelwort- 
Ensembles  sind  so  zusammengestellt,  daft 
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•  die  Fi'ikative  /s/,  // /  uiid  /x/  jeweils  zu  gleichen  Teilen  vorkominen, 

•  jedem  Pi-ikativ  der  Kontrastvokal  /a/  umnittelbar  vorangeht, 

•  jeweils  nur  der  betrachtete  Piikativ  bei  ansonsten  fester  Lautumgebung  variiert. 

Der  Untersuchungsgang  sieht  grundsatzlich  2  Durchgange  fiir  die  beiden  Einzelwort- 
Ensembles  vor;  dainit  entstehen  pro  Untersuchungssitzung  12  Aufzeichnungeii  mit  insge- 
saint  36  Einzelwortern  bzw,  jeweils  12  Einzelwortern  pro  FVikativtyp. 

7.2.2.  Untersuchungsablauf  und  Bedienung 

Nach  dem  Aufruf  des  MODIAS-Systems  erscheint  die  Startoberflache  gem.  Abbildung 
4.1  auf  Seite  47  mit  dem  entsprecheiiden  Startbutton  fiir  das  Modul  FRIKATIVARTI¬ 
KULATION. 

Nach  Betatigung  des  Buttons  START!  gelangt  man  umnittelbar  zur  Organisationsober- 
flache  gem.  Abbildung  4.2  auf  Seite  48  mit  der  Aufforderung  zur  Eingabe  samtlicher 
relevanter  Daten  zum  Patieiiten  und  zur  aktuellen  Untersuchungssitzung. 

Der  Untersucher  wird  jetzt  zur  Steuerungsoberflache  gem.  Abbildung  7.1  weitergeleitet, 
die  eine  Festlegung  beziiglich  des  weiteren  Fortgangs  der  Untersuchung  fordert  bzw.  er- 
moglicht. 

Im  oberen  Teil  der  Steuerungsoberflache  kann  der  Untersucher  auswahlen,  ob  das 

•  komplette  Standardprotokoll  mit  2  Durchgangen  (12  Aufzeichnungen  mit  insgesamt 
36  Einzelwortern  bzw.  je  12  pro  Fi-ikativtyp)  oder  aber  das 

•  verkiirzte  Untersuchungsprotokoll  mit  1  Durchgang  (6  Aufzeichnungen  mit  insge¬ 
samt  18  Einzelwortern  bzw.  je  6  pro  Frikativtyp) 

genutzt  werden  soil. 

Im  unteren  Teil  der  Steuerungsoberflache  wird  der  weitere  Ablauf  bzw.  die  Zielrichtung 
der  Sitzung  festgelegt.  Prinzipiell  sind  hier  zwei  unabhangige  Varianten  moglich: 

•  PATIENTENSITZUNG;  Erstellung  neuer  Aufzeichnungen  mit  dem  zu  untersu- 
chenden  Patienten  und  anschlieUender  akustischer  Analyse. 
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Abbildung  7.1.:  Steuerungsoberflache  des  Moduls  FRIKATIVARTIKULATION.  An  die- 
ser  Stelle  wird  vom  Untersucher  der  weifcere  Ablauf  der  Sitzung  und  der 
Umfang  des  Untersuchiingsprotokolls  festgelegt  bzw.  direkt  zur  Auswer- 
tung  (bei  bereite  vorliegenden  Ergebnissen)  naviglert. 


•  HORERSITZUNG:  Befundung  bereits  vorhandener  Aufzeichnungen  durch  einen 
geschulten  Horer.  Der  weitere  Ablauf  ist  in  7. 2. 2. 2  ab  Seite  208  beschrieben. 

•  ERGEBNISDARSTELLUNG:  Sichtung  ggf,  bereits  vorhandener  Ergebnisse  audi- 
tiver  Oder  akustischer  Analysen.  Diese  Option  ist  mir  moglich,  wenii  das  entspre- 
chende  Textfeld  rechts  auUen  gelb  markiert  ist  und  somit  alle  Voraussetzungen  vom 
System  gepriift  wurden  und  erfiillt  sind.  Der  weitere  Ablauf  hierzu  ist  in  7.2.3  ab 
Seite  209  erlautert. 


Nach  Betatigung  des  Buttons  WEITER  wird  das  Untersuchungsprotokoll  entsprechend 
der  gewahlten  Eingabe  verzweigt. 
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7. 2. 2.1.  Patientensitzung  (akustische  Analyse) 

Nach  Entscheidung  fiir  die  Patientensitzung  erscheint  unmittelbar  die  erste  von  bis  zu  2 
Aufzeichnungsoberflachen  gem.  Abbildung  7.2. 
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Abbildung  7.2.:  Eine  der  bis  zu  2  aitfeinanderfolgenden  Aufzeichnungsoberflachen  des 
Moduls  FRIKATIVARTIKULATION.  Die  Reihenfolge  der  Worter  ist 
randomisiert.  Die  Aufzeichnung  wird  jeweils  durch  den  Button  AUF- 
ZEICHNEN  gestartet. 

Die  Darstellung  der  Einzelv/brter  erfolgt  randomisiert;  die  Aufzeichnung  wird  jeweils 
durch  Betatigung  des  entsprechenden  Buttons  AUFNEHMEN  initiiert. 

Bei  der  Aufzeichnung  wird  jedes  Einzelwort  vom  Patienten  dreimal  hintereinander  nach- 
gesprochen  mit  kurzen,  dazwischenliegenden  Pausen,  Soil  die  Aufzeichnung  gespeichert 
werden,  geniigt  das  Schlie£en  des  Soundrecorders  (siehe  Abbildung  4.5  auf  Seite  51)  und 
die  Speicherung  wie  vorgeschlagen.  Der  Dateiname  ist  durch  MODIAS  bereits  voreinge- 
stellt,  ebeaiso  die  Systemeinstellungen  beziiglich  Samplingrate  (22050  Hz)  und  Auflosung 
(IGBit). 

Die  im  Untersuchungsprotokoll  vorgesehene  Stilleaufzeichnung  sieht  eine  Aufzeichnung 


Aurzalchntingstsll  1 
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olme  Aufspraclie  bzw.  ohne  jegliche  Art  von  (nicht  systemimmanenten)  Storgerauschen 
,niit  einer  Dauer  von  ca.  5  sec  vor.  Aufgrund  der  akustisch/phonetischen  Eigenschaften 
der  Fiikative  kommt  dieser  Stilleaufzeichnung  in  diesem  Modul.eine  entscheidende  Bedeu- 
tung  zu:  Die  3  betrachteten  Fidkative  /s/,  // /  und  /ar/  weisen  spektrale  Charakteristika 
auf,  die 

•  iiur  geringfugige  Unterschiede  aufweisen, 

•  im  wesentlichen  rauschartig  sind  und 

•  eine  geringe  Signalenergie  besitzen. 


Jede  spektrale  Farbung  des  Systemrauschens  kann  hier  schon  zu  niarkanteii  Verande- 
nmgen  der  akustischen  Eigenschaften  energiearmer  Pidkative  fiihren.  Um  hierdurch  keine 
systembedingte  Unscharfe  der  Detektionsleistung  nachgeschalteter  Mustererkenner  ent- 
stehen  zu  lessen,  wird  anhand  der  Stilleaufzeichnung  eine  statistische  Analyse  des  sy- 
stemspezifischen  Rauschens  (dominiert  vom  Aufzeichnungssystem  Soundkarte/Rechner) 
durchgefiihrt.  Die  spater  abgeleiteten  akustischen  Merkmale  der  relevanten  Laute  konnen 
so  vor  dem  ErkennungsprozeS  in  Grenzen  korrigiert  werden. 

Wie  bereits  dargestellt,  besteht  jede  Aufzeichnuiig  aus  drei  Einzelwoptern  mit  dazwischen- 
liegenden  Pausenabschnitten.  Bedingt  durch  die  ahnlichen  akustischen  Eigenschaften  von 
(rauschstorungsbehafteten)  Pausen  und  Frikativen  miassen  fiir  die  weitere  Verarbeitung 
die  Pausensegmente  ohne  artikulatorische  Aktivitat  mdglichst  exakt  entfernt  werden, 
Hierzu  wurde  in  dem  Modul  FRIKATIVARTIKULATION  ein  Segmentierungseditor  im- 
plementiert,  der  einen  mit  der  subjektiven  Lautheitsempfindung  des  menschlichen  Gehors 
korrespondierenden  Kurvenverlauf  (Lautheitskontur)  darstellt  und  damit  eine  geeignete 
Oberflache  fur  die  weitere  Bearbeitung  durch  den  Untersucher  bildet. 

Die  erforderlichen  Berechnungen  der  Lautheitskonturen  sowie  der  daraus  abgeleiteten 
Wortgrenzen  werden  automatisch  beim  Ubergang  von  den  Aufzeichnungsoberflachen  zur 
anschlielJenden  Segmentierungsoberflache  gem.  Abbildung  7.3  fiir  jede  Einzelwortauf- 
zeichnung  berechnet. 

Die  Segmentierungsoberflache  gestattet  fiir  jede  durchgefiihrte  Aufzeichnung  (erkennbar 
an  einer  gelben  Markierung  am  rechten  Rand  der  Textfelder)  iiber  den  Button  SEG- 
MENTIEREN  den  Aufruf  des  Segmentierungseditors  gem.  Abbildung  7.4. 
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Abbildung  7.3.:  Segnientierungsoberflache  des  Moduls  FRIKATIVARTIKULATION. 

Durch  Betatigung  des  Buttons  SEGMENTIEREN  wlrd  die  Einzelwort- 
segiuentierung  der  jeweils  zugeordneten  Aufzeichnung  eingeleitet. 

Iin  Segmentierungseditor  wird  die  fiir  die  jeweilige  Aufzeichnung  errechnete  Lautheits- 
kontur  grafisch  dargestellt,  zusatzlich  werdeii  die  detektierten  Grenzen  der  realisierten 
Einzelworter  markiert. 

Die  rechts  oben  eingeblendeten  Informationsfelder  zeigen  an,  wie  viele  Einzelworter  zum 
gegenwjirtigen  Stand  der  Segmentierung  vom  System  erkannt  werden. 

Charakteristisch  fiir  den  Verlauf  der  Lautheitskontur  ist  der  Einbruch  in  den  Wortmitten, 
da  die  stimmlosen  Frikative  nur  einen  Bruchteil  an  Energie  gegeniiber  den  uingebenden 
Vokalen  besitzen  und  damit  auch  eine  weseutlich  geringere  Lautheit  aufweisen.  Sind  die 
Fiikative  beziiglich  ihrer  artikulatorischen  Intensitat  besonders  schwach  ausgepragt,  kon- 
nen  durch  den  zu  Grunde  liegenden  Segnientierungsalgorithmus  falschlicherweise  auch 
zwei  einzelne  Worter  detektiert  werden. 

Miissen  die  vorgeschlagenen  Segmentgrenzen,  wie  z.B.  in  diesem  Fall,  beziiglich  ihrer  zeit- 
lichen  Lage  korrigiert  werden,  stehen  dem  Untersucher  innerhalb  der  Oberflache  mehrere 
Interaktionsmbglichkeiten  zur  Verfugung.  Unterstiitzend  wird  ihm  hierzu  im  uiiteren  Teil 
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Abbildung  7.4.:  Bedienoberflache  des  Segmentierungseditors  des  Moduls  FRIKATIVAR- 
TIKULATION  zur  Segmentierung  der  3  enthaltenen  Einzelworter.  Un- 
terstutzend  wird  hierbei  im  unteren  Teil  das  zeitsynchrone  Oszillogramm 
eingeblendet. 

des  Bildschirms  eine  alternative  Darstellung  in  Form  des  zeitsynchronen  Oszillogramms 
eingeblendet. 

Das  Menii  MANIPULATION  dient  der  unmittelbaren,  manuellen  Einflufinahme  auf  die 
bisher  automatisch  erfolgte  Segmentierung.  Es  bietet  die  folgende  Auswahl: 

•  ZWEI  SEGMENTE  VEREINIGEN:  Diese  Funktion  ist  immer  dann  sinnvoll,  wenn 
ein  Wort  wegen  des  medialen  Frikativs  einen  so  starken  Lautheitseinbruch  auf- 
weist,  da&  vom  Algorithmus  falschlicherweise  zwei  einzelne  Wortsegmente  erkannt 

'  wurden'.  Hierzu  (den  linken)  Segmentkern  mit  linker  Maustaste  selektieren,  danach 
wird  das  gewalilte  Segment  automatisch  mit  dem  unmittelbar  nachfolgenden  zu 
einem  gemeinsamen  Segment  bzw.  Wort  vereinigt. 

•  SEGMENT  BZW.  WORT  LOSCHEN;  Gestattet  die  Entfernung  von  Wdrtern  oder 
Wortsegmenten,  z.B.  bei  fehlinterpretierten  Artefakten.  Der  betrefFende  Segment- 
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kern  wird  mit  linker  Mousetaste  eelektiert,  damit  wird  das  gesamte  Segment  ent- 
fernt. 

•  WORT  SETZEN:  Manuelle  Markierung  eines  Wortes  oder  Wortsegmentes,  das  ggf. 
vom  Algorithinus  zunachst  unerkannt  geblieben  war.  Hierzu  Segmentkern  mit  lin¬ 
ker  Mousetaste  setzen,  die  zugehorigen  Segraentgrenzen  werden  automatisch  vom 
System  vorgeschlagen. 

•  LINKE  bzw.  RECHTE  GRENZE  VERSCHIEBEN;  Erlaubt  die  manuelle  Verschie- 
bung  von  Wort-  bzw.  Wortsegmentgrenzen.  Der  entsprechende  Segmentkern  wird 
liierfur  mit  der  linken  Mousetaste  selektiert,  danach  wird  der  neue  Ort  der  linken 
bzw,  rechten  Segmentgrenze  mit  gleicher  Mousetaste  vorgegeben. 

Das  Menii  WIEDERGABE  gestattet  dem  Untersucher  die  perzeptive  Kontrolle  der 
bisherigen  Segnientierung.  Die  Auswahl  erlaubt  die  Wiedergabe  der  gesamten  Auf- 
zeichnung,  die  Wiedergabe  der  detektierten  Einzelwdrter  oder  auch  die  manuelle 
Einzelwortwiedergabe  (wiederzugebenden  Segmentkern  jeweils  mit  linker  Mousetaste 
selektieren) . 

Das  Menii  SONDERFUNKTIONEN  bietet  eine  Mdglichkeit,  den  Algorithmus  zur 
Berechnung  der  Lautheitskontur  an  die  jeweilige  Sprechgeschwindigkeit  des  Patienten 
anzupasseii.  Werden  zunachst  weniger  als  3  Worter  detektiert  und  liegt  subjektiv  ein 
erhohtes  Sprechtempo  vor,  kann  hier  die  Anpassung  an  hohe  Sprechgeschwindigkeit  er- 
folgversprechend  sein.  Werden  umgekehrt  mehr  als  3  W5rter  erkannt  und  liegt  subjektiv 
ein  verlangsamtes  Sprechtempo  vor,  sollte  eine  Anpassung  der  Sprechgeschwindigkeit 
nach  unten  erfolgen.  Die  Auswahl  MANUELLE  THRESHOLD-FESTLEGUNG  gestat¬ 
tet  dem  Untersucher  die  spezifische  Vorgabe  einer  Mindestlautheit  fiir  die  Detektion  von 
Wortkandidaten  direkt  in  der  Grafik  iiber  die  linke  Mousetaste. 

Das  Menii  HILFSMITTEL  ermoglicht  eine  benutzerdefinierte  Zoomfunktion  be- 
ziiglich  der  Zeitachse  bei  fester  Skalierung  der  Lautheitsachse.  Die  Festlegung  des 
darzustellenden  Bereiches  erfolgt  durch  Aufziehen  eines  Zoomfensters  bei  gedriickter 
linker  Mousetaste.  Die  drei  weiteren  Auswahlen  dieses  Meniis  steuern  das  Ein-  bzw. 
Ausblenden  des  Oszillogrammes  sowie  die  Anpassung  der  Oszillogramm-Darstellung 
auf  bereits  erfolgte  Manipulationen  (linke  bzw.  rechte  Segmentgrenze  verschoben)  oder 


202 


7.2.  Aufbau  und  Gestaltung 


geanderte  Skalierungen  {Zeitachse  gezoomt). 

Das  Menu  ?  bietet  eine  Hilfefimktion  niit  ausfiihi-licher  Beschreibung  der  Bedie- 
nung  des  Segmentierungseditors. 

Nach  Verlassen  des  Segmentierungseditors  werden  die  jetzt  uberfliissigen  Sigualabschnit- 
te  vor  dem  ersten  und  nach  dem  letzten  Wort  entfernt.  Die  beiden  verbleibenden  Pausen 
zwischen  den  Einzelwortern  bleiben  zwar  in  der  urspriinglichen  Aufzeiclinung  erhalten, 
gehen  aber  nicht  in  die  anschlieRende  Bewertung  bzvv.  Auswertung  mit  ein. 

Sind  alle  Aufzeichnungen  segmentiert,  wird  die  Segmentierungsoberfiache  mit  dem 
Button  WEITER  verlassen. 

Das  Untersuchungsprotokoll  geht  jetzt  von  der  Phase  der  Vorverarbeituiig  in  eine 
Phase  der  akustischen  Bewertung  iiber.  Unter  diesem  Begriff  soil  im  folgenden  eine 
Bearbeitung  des  Sprachsignals  verstanden  werden,  die  aufgrund  ihres  Erkenntnisgewinns 
fiir  den  Durchfiihrenden  weder  eindeutig  der  Vorverarbeituiig  noch  der  Auswertung 
zuzuordnen  ist.  Sie  bereitet  notwendigerweise  die  spatere  Auswertung  beider  Aspekte, 
der  Frikativ-Differenzierung  und  der  Diskriminierung  Prikativ/Vokal,  vor  und  liefert 
iiberdies  zum  letztgenannten  Aspekt  detaillierte  Informationen. 

Der  folgende  Bildschirm  zeigt  die  erste  von  3  Bewertungsoberflachen  gem.  Abbildung 
7.5. 

Sie  fassen  die  wahrend  der  Aufzeiclinung  randomisiert  dargebotenen  Einzelwortauf- 
zeichnungen  nach  den  enthaltenen  Frikativen  zusaminen  und  gestatten  iiber  den  Button 
BEWERTUNG  die  Initiierung  der  jeweiligen  akustischen  Bewertung  in  einer  eigenen 
Bedienoberflache,  dem  grafischen  Bewertungs editor  gem.  Abbildung  7.6. 

Innerhalb  des  Bewertungseditors  wird  dem  Untersucher  ein  Kurvenverlauf  proji- 
ziert,  der  an  dieser  Stelle  genauer  erlautert  werden  muiJ.  Im  Hintergrund,  bzw.  nicht 
erkennbar  fur  den  Betrachter,  arbeiten  speziell  fiir  die  Aufgabe  der  optimalen  Trennung 
der  beiden  Lautklassen  FYikativ/  Vokal,  also  der  3  vorkommenden  Klassenpaare 

•  A/  ^  /a/ 

•  ///  /«/ 

•  A/  ^  A/ 


203 


7.  Realisieruug  des  Modiils  FRIKATIVARTIKULATION 


lyiiie  No  f:  llowoilumi^m 


iliiliili 

iliiiiil 


Akustischor  Bewortungstall  1:  Frikalivs 


iiii 


{  WapM.,;, 


Abbilclung  7.5.:  Bewei  tungsoberfiache  des  Moduls  FRIKATIVARTIKULATION.  Von 
hier  aus  wird  die  akustische  Bewertung  jeder  Wortaufzeichnung  eingelei- 
tet. 

entworfene  Mustererkenner.  Jeder  dieser  insgesamt  6  Mustererkenner  (fiir  weibliche  und 
mannliche  Sprecher  getrennt)  wurde  in  einer  zeitaufwendigen  TVainingsphase  auf  die 
akustisdien  Eigenschaften  der  jeweils  relevanten  Lautpaare  anhand  einer  reprasentati- 
ven  Stichprobe  gesunder  Probanden  trainiert. 

Mustererkenner  extrahieren  grundsatzlich  aus  der  parametrischen  Reprasentation  einer 
Klasse  sogenannte  Merkmale  (Merkmale  sind  hier  geeignete  akustische  Parameter,  die 
eine  moglichst  gute  Trennbarkeit  der  beiden  Klassen  erlauben,  also  die  Information  iiber 
die  relevanten  Klassenunterschiede  beinhalten)  und  fuhren  diese  einer  Klassifikation  zu. 
MODI  AS  arbeitet  hier  nach  einem  Verfahren,  wonach  im  Abstand  von  10ms  Merkma¬ 
le  extrahiert  und  anschliefiend  durch  eine  geeignete  Linearkombination  auf  ein  einziges 
Merkmal,  den  Diskriininanz- Score,  abgebildet  werden  (Merkmalsreduktion).  Der  in  Ab- 
bildung  7.0  dargestellte  Kurvenverlauf  (im  folgenden  als  Scoreverlauf  bezeichnet)  bildet 
den  zeitlichen  Verlauf  dieses  Diskriminanz-Scores  ab. 

Bedingt  durch  eine  geeignete  Wahl  der  Linearfaktoren,  also  der  spezifischen  Gewichtung 
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Abbildung  7.6.:  Bedienoberflache  des  grafischen  Bewertungseditors  des  Moduls  FRI- 
KATIVARTIKULATION.  Die  Kurvenziige  geben  Aufschlufi  iiber  die 
Erkennungsleistung  eines  Mustererkenners  fiir  die  Diskrimiiianz  Frika- 
tiv/Vokal. 

der  Merkmale  im  Rahmen  der  Merkmalsreduktion,  erreicht  der  Scoreverlauf  bei  sprech- 
gesunden  Probanden  im  Mittel 

•  fiir  den  Vokal  /a/  jeweils  den  Wert  —1, 

•  fur  die  Frikative  /s/,  // /  bzw.  /x/  den  Wert  +1. 

BetragsmaBige  Abweichungen  nach  unten  bedeuten  eine  kontrastarmere  Artikulation, 
Abweichungen  nach  oben  entsprechend  eine  kontrastreichere  Artikulation  im  Vergleich 
zur  Normgruppe. 

Das  eigentliche  Erkennungsverhalten  des  Mustererkenners,  also  z.B.  die  relative  Anzahl 
der  Fehlklassifikationen,  riickt  hierbei  zunehmend  in  den  Hintergrund.  Aufgrund  der  so 
grundsatzlich  verschiedenen  akustischen  Eigenschaften  von  Fi'ikativen  und  Vokalen  ist 
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eine  akustiscli  basierte  Klassifikation  (durch  Mustererkennungsverfahren)  auch  bei  Pa- 
tienten  niit  schweren  Artikulationsstorungen  mit  einer  so  hohen  statistischen  Sicherheit 
realisierbar,  daft  die  graduelle  Bewertung  der  Diskriminanz  mehr  an  diagnostisch  rele- 
vanter  Information  erwarten  laftt  als  das  nicht  naher  qu anti fizierb are  Urteii  der  Entschei- 
dungsinstanz. 

Durch  das  Konzept  der  akustischen  Bewertung  werden  mehrere  Ziele  verfolgt: 

•  Grafische  Visualisierung  der  Diskrimination  von  Frikativ  und  Vokal  durch  Projek- 
tion  eines  mit  der  Giite  der  artikulatorischen  Realisierung  korrespondierenden  Sco- 
reverlaufs.  Hierbei  ist  die  Qualitat  der  Realisierung  beider  Lautklassen  voneinander 
unabhangig  bewert-  und  interpretierbar. 

•  Markierung  der  jeweiligen  Extremstellen  beziiglich  Zeitpunkt  und  Amplitude  in- 
nerhalb  der  Rikativ-  bzw.  Vokalsegmeiite  . 

•  Verwertung  der  niarkierten  Scores  von  Rikativen  und  Vokalen  fiir  die  folgende 
Auswertung  der  Fahigkeit  zur  Kontrastierung  Rikativ/ Vokal. 

•  Verwertung  der  markierten  Zeitpunkte  der  Rikative  fiir  die  spatere  Auswertung 
der  Fahigkeit  zur  Rikativ-Differenzierung. 

Durch  den  grafischen  Bewertungseditor  steht  dem  Untersucher  ein  Instrument  zur  Ver- 
fiigung,  mit  dessen  Hilfe  er  sowohl  den  Scoreverlauf  betrachten  als  auch  die  vom  System 
vorgeschlagenen  Markierungen  der  Extremstellen  verandern  kann. 

Das  Menii  MANIPULATION  gestattet  die  folgende  Auswahl: 

•  NEUES  KONTRAST-/ZIELSEGMENTPAAR  SETZEN:  Kontrastsegmente  korre- 
spondieren  gem.  der  MODIAS-spezifischen  Konvention  mit  Vokalen,  Zielsegmente 
mit  Rikativen.  Falls  nicht  vom  Algorithmus  automatisch  erkannt,  konnen  diese 
paarweise  gesetzt  werden.  Hierzu  erst  den  Vokal{kern),  dann  den  Rikativ(kern) 
mit  linker  Mousetaste  vorgeben.  Die  zugehorigen  Segmentgrenzen  werden  danach 
vom  Algorithmus  automatisch  vorgeschlagen. 

•  SEGMENTKERN  VERSCHIEBEN:  Diese  Funktion  gestattet  die  Verschiebung 
von  Segmentkernen  bei  unveranderten  Segmentgrenzen.  Der  Ort  des  Segmentkerns 
sollte  im  Idealfall  ein  relatives  oder  absolutes  Maximum  des  Scoreverlaufs  innerhalb 
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der  zugehdrigen  Segmentgrenzen  niarkiereii.  Der  korrespondierende  Score  geht  in 
die  weiteren  akustischen  Analysen  ein,  daher  mufi  der  Segnientkern  sorgfaltig  po- 
sitioniert  sein.  Hierzu  den  zu  verschiebenden  Segmentkern  mit  linker  Mousetaste 
selektieren,  danach  den  neuen  Ort  mit  gleicher  Taste  festlegen. 

•  SEGMENTPAAR  LOSCHEN:  Loschen  eines  Segmentpaares,  bestehend  aus  dem 
Segment  des  Vokals  (Kontrastsegment)  und  dem  unmittelbar  nacbfolgenden  Erika- 
tiv  (Zielsegment)  innerhalb  eines  Wortes.  Hierzu  Segmentkern  des  Ziel-  oder  Kon- 
trastsegmentes  eines  Wortes  selektieren,  danach  warden  automatisch  beide  entfernt. 

Das  Menu  WIEDERGABE  bietet  in  dem  beschriebenen  Bewertungseditor  umfangreiche- 
re  Moglichkeiten; 

•  GESAMT:  Die  gesamte  Aufzeichnung  wild  mit  ihren  3  enthaltenen  Einzelwortern 
wiedergegeben. 

•  UBERGANGE:  Die  3  wesentlichen  Ubergange,  jeweils  vom  Kontrastvokal  auf  den 

folgenden  Prikativ,  werden  innerhalb  der  detektierten  Segmentgrenzen  wiedergege¬ 
ben  (/a/  -t  /s/,  /a/  // /,  /a/  /x/). 

•  ZIELSEGMENTE:  Wiedergabe  der  3  Zielsegment e  (d.h.  der  segmentierten  Prika- 
tive). 

•  KONTRASTSEGMENTE;  Wiedergabe  der  3  Kontrastsegmente  (d.h.  der  segmen¬ 
tierten  Vokale). 

•  EINZELSEGMENT:  Manuelle  Wiedergabe  einzelner  Ziel-  bzw.  Kontrastsegmente. 
Hierzu  den  jeweiligen  Segmentkern  mit  linker  Mousetaste  selektieren. 

•  ABSCHNITT  VON.. .BIS;  Abschnittsweise  Wiedergabe  innerhalb  definierbarer 
Grenzen  unabhangig  von  der  Segmentierung.  Hierzu  mit  linker  Mousetaste  Anfang 
und  Ende  des  wiederzugebenden  Abschnittes  direkt  im  Scoreverlauf  vorgeben. 

Der  Meniipunkt  HILFSMITTEL  enthalt  eine  benutzerdefinierte  Zoomfunktion  beziig- 
lich  der  Zeitachse  bei  fester  Skalierung  der  Ordinate.  Die  Festlegung  des  darzustellenden 
Bereiches  erfolgt  durch  Aufziehen  eines  Zoomfensters  bei  gedriickter  linker  Mouseta¬ 
ste.  Die  drei  weiteren  Auswahlen  dieses  Mentis  steuern  das  Ein-  bzw.  Ausblenden  des 
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Oszillograinmes  sowie  die  Anpassung  der  Oszillogramm-Darstellung  auf  bereits  erfolgte 
Maiiipulatioiien  oder  geanderte  Skalierungen. 

Der  Bewertungseditor  wird  nach  abgeschlossenem  Bewertungsvorgang  mit  dem  Button 
FERTIG  verlassen,  erst  danach  werden  saintliche  Segmentierungsinformationen  gespei- 
cliert. 

Sind  alle  Aufzeichnungen  der  insgesanit  3  akustischen  Bewertungsteile  bearbeitet,  gelangt 
man  durch  Betatigung  des  Buttons  WEITER  in  die  Auswertungsoberflache  (Fortsetzung 
unter  7.2.3  ab  Seite  209). 

7. 2. 2. 2.  Horersitzung  (auditive  Analyse) 

Wurde  innerhalb  der  Steuerungsoberflaclie  gem.  Abbildung  7.1  der  Button  HORER- 
SITZUNG  (auditive  Analyse)  gewaiilt,  offnet  sich  ein  Eingabefeld  fiir  den  Namen 
des  Horers.  An  dieser  Stelle  kann  ein  l^eliebiger  Text  eingegeben  werden  ohne  die 
stringenten  Vorgaben  wie  bei  der  Eingabe  des  Patientenkiirzels  (z.B.  Dr.  Muller  im 
zweiten  Versiich). 

Nach  Betatigung  des  Buttons  WEITER  gelangt  man  zu  der  ersten  der  bis  zu  3  aufein- 
anderfolgenden  Befundungsoberflachen  {Auditiver  Bewertungsteil)  gem.  Abbildung  7.7. 
Der  erste  Schritt  ist  hier  zunachst  die  Oberpriifung  der  Aussteuerung  iiber  den  unten 
links  angeordneten  Button  AUSSTEUERUNGS-CHECK.  Nach  Betatigung  wird  dabei 
ein  kurzer  Signalton  an  die  angeschlossenen  Lautsprecher  ausgegeben,  der  die  gleiche 
Signalaussteuerung  wie  alle  nun  folgenden  akustischen  Einzelwortwiedergaben  besitzt. 
Das  in  griiner  Schrift  eingeblendete  Informationsfeld  zeigt  hier  gegebenenfalls  an, 
daft  bereits  eine  Horersitzung  zu  den  Aufzeichnungen  dieser  Sitzung  stattgefunden 
hatte.  MODIAS  gestattet  hier  bis  zu  5  unabhangige  Horersitzungen  pro  durchgefuhrter 
Patientensitzung. 

In  jeder  der  Befundungsoberflachen  werden  maximal  12  Einzelworter  randomisiert 
dargeboten,  wobei  der  Hdrer  aus  der  Darstellung  nicht  entnehmen  kann,  um  welchen 
Wort-  bzw.  Rikativtyp  es  sich  handelt.  Nach  Betatigung  des  jeweiligen  Buttons  OK"” 
wird  zuutichst  ein  kurzer  Signalton  als  Hinweis  auf  die  folgende  Diskriminationsaufgabe 
ausgegeben,  unmittelbar  im  Anschlufi  dann  das  zu  prufende  Einzelwort.  Der  Horer 
entscheidet  sich  nach  seinem  subjektiven  Horeindruck  fiir  einen  der  3  Frikativtypen  /s/, 
///  bzw.  /a:/und  setzt  mit  der  linken  Mousetaste  ein  Kreuz  bei  dem  entsprechenden 
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Abbildung  7.7.:  Befundungsoberflache  des  Moduls  FRIKATIVARTIKULATION.  Der 
Horer  iniiert  mit  der  Taste  OK  die  einmalige  Wiedergabe  eiiies  Einzel- 
wortes  und  entscheidet  sich  anschliefieiid  fiir  einen  (erkannten)  Frikativ. 
Die  Reihenfolge  der  Wiedergaben  beziiglich  der  enthaltenen  Prikative  ist 
randomisiert.  Bei  36  realisierten  Einzelwortern  werden  3  solcher  Ober- 
flachen  nacheinander  bearbeitet. 

Feld.  Um  dabei  den  unerwiinschten  EfFekt  des  Einhorens  so  gering  wie  moglich  zu 
halten  und  gleichzeitig  das  praxisrelevante  Spontanurteil  des  Horers  zu  gewinnen,  erfolgt 
die  Wiedergabe  jeweils  nur  einmalig.  Erst  wenn  alle  Einzelworter  bzw.  Diskriminati- 
onsaufgaben  bearbeitet  sind,  gelangt  man  iiber  den  Button  WEITER  schliefilich  zur 
Auswertung. 

7.2.3.  Auswertung,  Ergebnisdarstellung  und  Datenexport 

Die  Auswertung  des  Moduls  FRIKATIVARTIKULATION  widmet  sich,  wie  bereits 
dargestellt,  sowohl  der  Fahigkeit  des  Patienten  zur  Kontrastierung  zwischen  Frikativen 
und  Vokalen  sowie  der  Fahigkeit  zur  hinreichenden  Frikativ- Differenzierung  im  Sinne 
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der  Sprachverstandlichkei  t. 

Die  Fi-ikativ-DifFereiizierung  katin  iiber  zwei  Entscheidungsinsfcanzen  (Mensch  bzw. 
Maachine)  gepriift  werden,  wobei  die  jeweiligen  Ergebnisdarstellungen  vollstandig  analog 
strukturiert  und  damit  unmittelbar  vergleichbar  gehalten  sind. 

Die  Auswertungsoberflache  gem.  Abbildung  7.8,  von  der  aus  samtliche  Auswertungen 
gestartet  werden  kbnnen,  teilt  sich  in  die  folgenden  Bereiche  auf: 

•  Akustische  Analysen  durch  die  Entscheidungsinstanz  „Maschine“(sowohl  Kon- 
trastierung  Piikativ/Vokal  als  auch  Fiikativ-DifFerenzierung), 

•  Auditive  Analyse  durch  die  Entscheidungsinstanz  „Mensch“(nur  Prikativ- 
DifFerenzierung). 


Abbildung  7.8.;  Auswertungsoberflache  des  Moduls  FRIKATIVARTIKULATION.  Von 
hier  aus  werden  die  akustischen  Analysen  (Entscheider;  Maschine)  oder 
die  auditive  Analyse  (Entscheider:  Mensch)  gestartet. 
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7. 2. 3.1.  Akustische  Analyse  I:  Kontrastierung  Frikativ/Vokal 


Das  Auswertungsblatt  gem.  Abbildung  7.9  zeigt  in  der  oberen  Halfte  getrennt  nach  Fi'i- 
kativtypen  die  MITTLEREN  SCORES  der  Fi-ikative  (rot  bzw.  die  jeweils  rechten  Saulen) 
und  der  zugehorigen  Kontrastvokale  (blau  bzw.  die  jeweils  linken  Saulen).  Sie  wurden  im 
Rahinen  der  akustischen  Bewertung  innerhalb  der  Bedienungsoberflache  des  grafischen 
Bewertungseditors  fur  jedes  einzelne  Prikativ-  bzw.  Vokalsegment  ermittelt.  Wie  bereits 
dargestellt,  sollten  diese  mittleren  Scores  bei  einem  sprechgesunden  Probanden  betrags- 
mafiig  gleich  gro6  sein,  aber  mit  jeweils  umgekehrtem  Vorzeichen. 


Mililit#  Scorn  von  Ziil-  und  Konlfistifgmtnltn 
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Abbildung  7.9.:  Auswertung  zum  Modul  FRIKATIVARTIKULATION,  Akustische  Ana¬ 
lyse  zur  Kontrastierung  Prikativ/Vokal,  Blatt  1. 

Die  Scores  sind  fiir  die  beiden  Lautklassen  Prikativ  bzw.  Vokal  voneinander  unabhangig 
interpretierbar.  Der  Betrag  -1  entspricht  dem  Durchschnittswert  der  zugrunde  liegen- 
den  Normstichprobe  sprechgesunder  Menschen  fiir  den  Vokal  /a/,  der  Betrag  -1-1  dem 
entsprechenden  Durchschnittswert  fiir  den  jeweiligen  Fi'ikativ  /s/,  ///  bzw.  /x/  (Die 
Normdatenerhebung  wurde  anhand  des  identischen  Wortmaterials  vollzogen,  also  in  ei- 
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iier  identischen  Lautumgebung  fux*  die  hier  betrachteten  Lautklassen). 

Giinstig  ist  hier  eine  moglichst  hohe  Differenz,  die  ein  sensitives  Mafi  fur  die  Fahigkeit 
des  Patienten  zur  artikulatorischen  Kontrastierung  darstellt. 

In  der  unteren  Halfte  sind  die  MITTLEREN  SCOREGRADIENTEN  aufgetragen.  Diese 
Maftzalil  ennittelt  sich  aus  den  Flankensteilheiten  der  Scoreverlaufe  (siehe  Kurvenver- 
lauf  im  Bewertungseditor  in  Abbildung  7.6  auf  Seite  205  bzw.  Abbildung  7.10),  die  sich 
durcli  den  mehr  oder  weniger  schnellen  Ubergang  vom  Vokal  zum  nachfolgenden  FVikativ 
einstellen.  Sie  parametriert  damit  die  Fahigkeit  des  Patienten  zu  einer  schnellen  Stel- 
lungsanderung  der  Artikulatoren, 


1.05 


Abbildung  7.10.:  Scoreverlauf  am  Cbergang  vom  Vokal  zum  Frikativ.  Je  steiler  die  Kurve 
ist,  desto  schneller  wild  der  artikulatorische  Kontrast  vom  Patienten 
realisiert. 

Das  Menu  DRUCKEN  stellt  diverse  Varianten  der  Druckausgabe  zur  Verfiigung  wie  Farb- 
druck,  Schwarz- Weifi-Druck  oder  Kopie  in  die  Zwischenablage  fiir  die  weitere  Verwendung 
in  klinischen  Berichten  usw. 


7. 2. 3. 2.  Akustische  Analyse  II:  Frikativ-Differenzierung 

Dieser  Auswertungsteil  zeigt  das  Erkennungsverhalten  eines  entsprechenden  Musterer- 
kenners  auf,  der  allein  auf  Basis  der  objektiv  meRbaren,  akustischen  Signaleigenschaften 
eine  Znordnung  zu  den  3  Frikativklassen  /$/,  ///  und  /r/vornimmt.  Da  er  zuvor  auf 
die  akustischen  Signaleigenschaften  einer  hinreichend  grofien  Anzahl  sprechgesunder  Pro- 
banden  trainiert  wurde,  spiegeln  sich  die  zu  erwartenden  Signalveranderungen  sprechge- 
storter  Probandeii  in  einer  erhohten  Anzahl  von  Fehlklassifikationen  wider. 

Im  ersten  Auswertungsbiatt  gem.  Abbildung  7.11  sind  in  der  oberen  Halfte  Saulendia- 
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gramme  fiir  die  3  betrachteten  FYikativtypen  vorgesehen,  die  im  Verhaltnis  der  Klassi- 
fikationsergebnisse  Richtig  erkannt  (griin)  bzw.  Falsch  erkannt  (rot)  farblich  abgesetzt 
sind.  Die  absoluten  Anzahlen  der  jeweiligen  Entscheidvmgen  sind  in  den  zugeordneten 
Saulenabschnitten  eingeblendet. 
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Abbildung  7.11.:  Auswertung  zum  Modul  FRIKATIVARTIKULATION,  Akustische 
Analyse  der  Fiikativ-Differenzierung,  Blatt  1. 

In  der  unteren  Blatthalfte  kann  das  beobachtete  Entscheidungsverhalten  weiter  analy- 
siert  werden. 

Eine  Matrixdarstellung  veranschaulicht  den  Zusammenhang  zwischen  Zielvorgabe  (Was 
Eollte  gesprochen  werden?)  und  tatsachlicher  Klassifikation  (Was  wurde  vom  System  er¬ 
kannt?).  Bedingt  durch  diese  Art  der  Darstellung  bilden  die  korrekten  Klassifikationen 
die  Hauptdiagonale,  alle  Fehlklassifikationen  kommen  oberhalb  bzw.  unterhalb  dieser 
Diagonals  zu  liegen. 

Im  konkreten  Beispiel  wurde  durch  den  Mustererkenner  der  Ftikativ  /x/  in  alien  Fallen 
fehlerfrei  erkannt;  die  Prikative  /&/  und  ///  wurden  jedoch  in  jeweils  3  von  12  Fallen 
fehlklassifiziert  als  /x/. 
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Das  folgende  Auswertungsblatt  gem.  Abbildung  7,12  bietet  dem  Untersucher  eine  Mog- 
lichkeit,  das  dargestellte  Entscheidungsverhalten  noch  eine  Ebene  tiefer,  jetzt  unmittelbar 
in  der  Entscheidungsebene  des  Mustererkennersystems  zu  beurteilen. 

Wahrend  die  fiir  die  Analyse  der  Kontrastierung  Prikativ/Vokal  (2-Klassen- 
Diskriminanz)  entwickelten  Mustererkenner  vor  dem  eigentlichen  Klassifikationsprozefi 
jeweils  eine  Merkmalsreduktion  auf  einen  l-dimensionahn  Score  vorgesehen  batten  (Sco- 
reverlauf  wurde  im  Bewertungseditor  dargestellt),  sieht  der  Entwurf  des  bier  bescbrie- 
benen  Systems  zur  Analyse  der  Frikativ-DifFerenzierung  (3-Klassen-Diskriminanz)  eine 
Merkmalsreduktion  auf  einen  2-dimensionalen  Score  bzw.  ein  Score-Paar  vor.  Damit  fin- 
det  die  Klassifikation  in  einer  Entscheidungsebene  statt,  d.b.,  jeder  realisierte  Prikativ 
wild  im  Laufe  des  Erkennungsprozesses  auf  einen  Punkt  in  einer  2-dimensionalen  Ebene 
projiziert.  Sie  ist  iibersicbtlich  und  einfach  grafiscb  darstellbar. 


Abbildung  7.12.:  Auswertung  zum  Modul  FRIKATIVARTIKULATION,  Akustiscbe 
Analyse  der  Frikativ-DifFerenzierung,  Blatt  2.  Der  Untersucber  bat  bier 
die  Moglicbkeit,  das  Klassifikationsverhalten  des  realisierten  Muster- 
kenners  direkt  in  dessen  Entscheidungsebene  zu  priifen. 
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Gestrichelt  bzw.  unterstrichen  eingezeichnet  sind  die  1-a  und  2-cr-Ellipsen  der  Normgrup- 
pe  mit  ihren  jeweiligen  Gruppenzentroiden.  Jeder  realisierte  Prikativ  des  gerade  betrach- 
teten  Patienten  wird  dabei  in  diese  Entscheidungsebene  eingeblendet.  Durch  Vergleich 
mit  den  Daten  der  Normgruppe  ist  es  jetzt  fur  den  Untersucher  auf  einen  BJick  moglich, 

•  den  Grad  der  Abweichung  von  der  Norm  zu  erkennen  sowie 

•  die  Auswirkung  einer  Abweichung  tendenziell  zu  erfassen. 

Die  Abbildung  7.12  zeigt  in  Fortsetzung  des  erwahnten  Beispiels  sofort  die  Tendenzen  der 
Frikative  /&/  und  ///  zum  Frikativ  /%/  an,  die  zu  den  festgestellten  Fehlklassifikationen 
fiihren  muSten. 

Bedingt  durch  die  zu  Grunde  liegende  Klassifikationsstrategie  des  Mustererkenners 
erfolgt  die  Zuordnung  eines  Musters  nicht  umbedingt  zu  der  Klasse  mit  dem  in  der 
Entscheidungsebene  nachstgelegenen  Gruppenzentroid,  d.h.,  die  Entscheidung  wird  nicht 
in  der  Entscheidungsebene  durch  Abstandsmafie  getroffen.  Die  Klassifikation  erfolgt 
hier  viehnehr  in  statistischem  Sinne  optimal,  d.h.,  die  Zuordnung  erfolgt  zu  der  Klasse 
mit  der  hochsten  Zugehorigkeitswahrscheinlichkeit,  Somit  werden  auch  die  statistischen 
Eigenschaften  der  jeweiligen  Klassen  beriicksichtigt. 

Das  Menii  DRUCKEN  stellt  diverse  Varianten  der  Druckausgabe  zur  Verfiigung  wie 
Farbdruck,  Schwarz- WeiR-Druck  oder  Kopie  in  die  Zwischenablage  fur  die  weitere 
Verwendung  in  klinischen  Berichten  usw. 

Das  Menii  DARSTELLUNG  gestattet  die  Reduzierung  der  grafischen  Darstellung  auf 
die  aktuellen  Scores  jeweils  nur  eines  Prikativtyps  mit  den  zugehorigen  rr-Ellipsen  bzw. 
des  Zentroids.  Damit  kann  im  Einzelfalle  die  Darstellung  durch  Ausblendung  momentan 
nicht  relevanter  Information  deutlich  an  Obersichtlichkeit  gewinnen. 

Das  Menii  HILFSMITTBL  bietet  die  Moglichkeit,  einzelne  Bereiclie  der  Entscheidungs¬ 
ebene  durch  eine  implementierte  Punktion  ZOOM  vergr611>ert  darzustellen.  Hierzu  kann 
mit  der  linken  Mousetaste  ein  entsprechendes  Zoomfenster  aufgezogen  werden;  die 
Riickkehr  zur  Originaldarstellung  erfolgt  iiber  die  Option  REZOOM, 

Durch  Betatigung  des  Buttons  MESSWERTE  ANZEIGEN  werden  dem  Untersu¬ 
cher  Zusatzinformationen  eingeblendet  (Abbildung  7.13),  die  den  Grad  und  die  Richtung 
von  Verschiebungen  gegeniiber  der  Normgruppe  visualisieren.  Im  Einzelnen  sind  dies 
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•  die  ermittelten  Gruppenzentroide  fiir  den  aktuell  betrachteten  Probanden  und  de- 
ren  Abstand  von  den  Gruppenzentroiden  der  Normgruppe  in  der  Entscheidungs- 
ebene  als  MaG  fiir  die  artikulatorisdi  bedingten  Lautverschiebungen  und 

•  das  Verhaltnis  der  durch  die  Gruppenzentroide  aufgepannten  Dreiecksflachen  vqn 
betrachteteni  Proband  und  der  Normgruppe  als  sensitives  Mafe  fiir  die  Prikatiy- 
Differenzierung  {Flachcnquotient) . 


Abbildung  7.13.:  Die  optionale  Einblendung  von  Zusatzinformationen  in  die  Entschei- 
dungsebene  des  Mustererkennersystems  liefert  Aussagen  iiber  den  Grad 
der  Verschiebung  einzelner  Prikative  wie  auch  iiber  die  Differenzierung 
der  3  Pi-ikative  gegeniiber  der  mittleren  Differenzierung  der  Normgrup¬ 
pe. 

Bei  Betatigung  des  Buttons  SCATTERPLOT  erfolgt  die  Riickkehr  zur  urspriinglichen 
Darstellung  ohne  Hilfsinformationen  gem.  Abbildung  7.12. 
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7. 2, 3. 3.  Auditive  Analyse:  Frikativ-Differenzierung 

Wahrend  der  vorhergehende  Abschnitt  das  Erkennungsverhalten  eines  trainierten 
Mustererkenners  aufzeigte,  wird  in  diesem  Auswertungsteil  das  Entscheidungsverhalten 
eines  geschulten  Horers  dargestellt,  der  alleiii  auf  Basis  des  subjektiv  bewertbaren, 
perzeptiven  Horeindrucks  eine  Zuordnung  zu  den  3  FVikativklassen  /s/,  ///  und  /x/ 
vornimmt. 

Analog  zu  einem  Mustererkenner,  der  in  einem  zeitlich  befristeten  ProzeK  auf  die  aku- 
stischen  Signaleigenschaften  sprechgesunder  Probanden  trainiert  wurde,  ist  der  Mensch 
durch  seine  lebenslange  Erfahrung  auf  den  Horeindruck  gesunder  bzw.  unauflFalliger 
Sprecher  trainiert.  Allerdings  ubertrifFt  der  Mensch  mit  seiner  Erkennungsleistung 
jede  bisher  realisierte  Maschine  uni  ein  Vielfaches,  besonders  unter  dem  Aspekt  seiner 
schnellen  Adaptionsfahigkeit  auf  eine  weniger  kontrastreidie  Artikulation  (auch  mit 
komplexen  Storungsmerkmalen)  nach  einer  nur  kurzen  Eingewoliiiungsphase. 

Dieser  Adaptionseffekt  stellt  in  der  auditiven  Befundung  von  Sprechstorungen  durch  die 
resultierende  hohe  Varianz  der  Horerurteile  einen  erheblichen  Nachteil  dar.  Allerdings 
mu6  sich  das  bereits  vorgestellte  Instrument  der  akustischen  Analyse  erst  in  der  Praxis 
gegeniiber  der  auditiven  Analyse  bewahren,  so  daft  auf  letztere  zunachst  noch  nicht 
verzichtet  werden  darf. 

Das  erste  Auswertungsblatt  ist  analog  zu  dem  des  vorangehenden  Abschnittes  auf- 
gebaut  (siehe  Abbildung  7.11),  urn  jetzt  auch,  neben  dem  auditiven  Befund,  einen 
direkten  Vergieich  zwischen  den  beiden  Entscheidungsinstanzen  Mensch  und  Maschine 
zu  ermoglichen.  Da  das  Untersuchungsprotokoll  jedoch  die  unabhangige  Befundung 
mehrerer  Horer  zulafit  (bis  zu  5),  werden  hier  die  kumulierten  Urteile  samtlicher  Horer 
eingeblendet. 

Das  abschliefiende  Auswertungsblatt  gem.  Abbildung  7.14  gestattet  eine  Analyse 
der  horerspezifischen  Urteilsverhalten.  Fvir  jeden  der  bis  zu  5  Horer  wird  hier  pro 
Piikativtyp  jeweils  eine  farbige  Saule  zur  Visualisierung  der  betreffenden  Fehlklassifi- 
kationsraten  dargestellt.  UnregelmaiSigkeiten  in  der  auditiven  Befundung  kbnnen  hier 
bptisch  sehr  leicht  erkannt  und  differenziert  betrachtet  werden. 

Die  letzte  Zeile  der  Saulengrafiken  stellt  erganzend  wieder  die  Gesamtmittelwerte  dar, 
um  z.B.  schnell  einen  tjberblick  dariiber  zu  erhalten,  welcher  Horer  in  seinem  Befund 
stark  von  dem  Durchschnitt  abweicht. 
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Abbiklung  7.14.:  Auswertung  zum  Modul  FRIKATIVARTIKULATION,  Auditive  Ana 


lyse  der  Flikativ-DifFerenzierung,  Blatt  2. 


7.3.  Technische  Realisierung:  Eiitwickelte  Verfahren  uncf  Algorithmen 

7.3.  Technische  Realisierung:  Entwickelte  Verfahren  und 
Algorithmen 

7.3.1.  Mustererkennerentwurf  zur  Klassifikation  Frikativ/Vokal 

7. 3. 1.1.  Methodischer  Ansatz 

Der  erste  zu  realisierende  Mustererkenner  soil  die  beiden  Klassen  Ptikativ  und  Vokal  an- 
hand  ihrer  akustischen  Eigenschaften  differenzieren.  Von  Interesse  ist  hier  aber  weniger 
<iie  Zuordming  entsprechender  Lautsegmente  in  eine  der  beiden  Klassen,  da  diese  Klas- 
sifikationsaufgabe  auf  Grund  der  sich  stark  unterscheidenden  akustischen  Eigenschaften 
auch  bei  gestorter  Artikulation  noch  sehr  zuverlassig  realisierbar  ist.  Die  Beurteilung 
allein  anhand  der  inelJbaren  Fehlkassifikationsrate  lie£e  sich  also  hierzu  nicht  sinnvoll 
heranziehen. 

Aus  diagnostischer  Sicht  ist  vielmehr  ein  moglichst  sensitive!-  akustischer  Parameter  er- 
wiinscht,  der  hoch  mit  der  jeweiligen  Artikulationsgiite  korreliert  und  damit  sowohl 

•  die  absolute  Beurteilung  der  Artikulation  jeder  der  beiden  Lautklassen  einzeln,  aber 
auch 

•  die  relative  Beurteilung  der  Artikulation  der  beiden  Lautklassen  zueinander  zulafit. 

Die  letztgenannte  Variante  fiihrt  zur  Ableitung  eines  Differenz-  bzw.  Kontrastmafees. 
Durch  die  Wahl  des  Wortmaterials  ist  der  Kontrastlaut,  d.h.  der  Vokal,  bei  alien  Einzel- 
wortern  der  beiden  Wort-Ensembles  gleich;  damit  kann  der  Ubergang  zura  nachfolgenden 
Fiikativ  als  naherungsweise  identisch  angenommen  werden. 

Der  Entwurf  des  zu  realisierenden  Mustererkenners  lafit  sich  gem.  Abbildung  7.15  syste- 
matisch  in  Funktionsblbcke  untergliedern. 


Abbildung  7.15.:  Funktionale  Blocke  eines  Mustererkennersystems. 
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Fiir  clen  Entwurf  eines  Mustererkennersystems  kommt  der  Merkmalsextraktion  uiid  der 
Vorverarbeitiing  eiiie  zeiitrale  Bedeutung  zu.  Diese  Verarbeitungsstufen  stellen  der  nach- 
folgenden  Klassifikatioii  diejenigen  GroUen  zur  Verfugung,  die  fiir  den  Entscheidungspro- 
zefi  besonders  gut  geeignet  sind.  Im  Idealfalle  sollten  hier  nur  solche  Merkmale  angeboten 
werden,  die  fiir  die  Klassentrennung  relevant  sind. 

Fiir  die  Losung  des  gestellten  Klassifikationsproblems  Frikativ/Vokal  werden  in  der  Si- 
gnalanalysestufe  aiis  einer  geeigneten  Spektraldarstellung  des  Sprachsignals  zunachst 
akustische  Parameter  abgeleitet  und  zu  Datenvektoren  zusammengefafit,  die  mdglichst 
viele  der  fiir  die  jeweilige  Artikulation  charakteristischen  Eigenschaften  beinhalten  und 
damit  die  klassenspezifischen  Unterschiede  mdglichst  gut  reproduzieren. 

Diese  diirfen  dann  aber  nicht  von  Stimmparametern,  wie  z.B.  Sprechstimmlage,  Stimm- 
qualitat  oder  Anregungsintensitat,  beeinfluEt  werden.  Sie  sollen  weiterhin  auch  unab- 
hangig  vom  gewahlten  Aufzeichnungssystern  und  seinen  parasitaren  Einfliissen  sein,  also 
z.B,  von  den  Fiequenzgangen  von  Mikrophon  bzw.  Soundkarte,  oder  von  den  stets  vor- 
handenen  rechnerinternen  Stdrstrahlungen  durch  das  PC-Netzteil  oder  die  Grafikkarte. 
Weiterhin  sollten  die  Datenvektoren  innerhalb  der  Zeitfenster,  die  hinsichtlich  artikula- 
torischer  Parameter  als  stationar  anzusehen  sind,  nur  eine  geringe  Varianz  aufweisen. 
Die  anschlielSende  Merkmalsextraktionsstufe  gewinnt  aus  den  bereitgestellten  Datenvek¬ 
toren  die  Merkmale,  die  zur  Klassentrennung  geeignet  sind.  Die  Aufgabe  wurde  in  diesem 
Teil  des  MODIAS-Moduls  durch  Linearkombination  der  Datenvektoren  mit  einer  speziel- 
len  Diskriminanzfunktion  gleicher  Elementzahl  gelost;  hierdurch  wird  jeder  mehrdimen- 
sioiiale  Datenvektor  auf  einen  diskreten  Zahlenwert,  den  sogenannten  Diskriminanzscore 
D  abgebildet. 

Diese  Scores  werden  als  eindimensionale  Merkmalsvektoren  interpretiert,  die 

•  die  gesamte  enthaltene  Information  der  Datenvektoren  enthalten,  dabei  aber 

•  statistische  Abhangigkeiten  der  Vektorelemente  entfernen  und  gleichzeitig  eine 

•  spezifische  Gewichtung  der  Vektorelemente  entsprechend  ihrer  Relevanz  fiir  eine 
Klassentrennung  beriicksichtigen. 

Die  Diskriminanzfunktion  wird  fiir  eine  Normstichprobe  sprechgesunder  Probanden  uber 
das  statistische  Verfahren  der  2-Klassen-Diskriminanzanalyse  berechnet  und  auf  eine  op- 
timale  Klassentrennbarkeit  bin  optimiert.  Dieser  Prozefi  beinhaltet  das  stets  erforderliche 
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TVaining  des  zu  Grunde  liegenden  Mustererkenners. 

Der  eigentliche  KlassifikationsprozeR  wurde  mit  einem  Bayes-Klassifikator  realisiert,  der 
iiber  einen  funktionalen  Zusammenhang  fiir  jeden  moglichen  Punkt  im  Merkmalsraum 
angibt,  wie  wahrscheinlich  die  Zugehorigkeit  des  gerade  betrachteten  Musters  zur  Klasse 
der  Prikative  bzw.  zur  Klasse  der  Vokale  ist.  Damit  entsteht  iiber  die  Zugehorigkeits- 
wahrscheinlichkeit  zur  tatsachlichen  realisierten  Klasse  eiu  Parameter,  der  dutch  seinen 
direkten  Bezug  zur  Normgruppe  als  MaB  flir  die  artikulatorische  Realisierimgsgiite  in- 
terpretiert  werden  kann.  Die  letztlich  getroffene  Entscheidung  des  Mustererkenners  fiir 
die  wahrscheinlichste  Klasse  erfolgt  in  statistischem  Sinne  optimal  (Optimalklassifikation 
nach  Bayes). 

7.3. 1.2.  Signalanalyse 

Es  werden  ausschliefilich  akustische  Parameter  aus  den  entspreclienden  Kurzzeit- 
Fourierspektren  abgeleitet,  da  hier  schon  bei  oberflaclilicher  Betrachtung  deutliche  Un- 
terschiede  zwischen  Frikativen  und  Vokalen  erkennbar  sind  (siehe  Abbildung  7.16  im 
Vergleich  zu  Abbildung  7.17). 

Vokalspektren  besitzen  dutch  die  vollstandige  Offnung  des  Vokaltrakts  insgesamt  eine 
hohe  Energie,  sie  zeigen  hohe  spektrale  Anteile  im  unteren  Prequenzbereich  von  200  bis 
ca.  3500  Hz  mit  den  vokalspezifischen  Pormantfrequenzen. 


Abbildung  7.16.:  Typisches  Kurzzeit-Leistungsdichtespektrum  des  Vokals  /a/  mit  den 
charakteristischen  Pormantfrequenzen  (hier  bei  700  Hz  und  1100  Hz). 

Fiikative  zeigen  im  Gegensatz  hierzu  markante  spektrale  Anteile  erst  im  Prequenzbe¬ 
reich  oberhalb  von  etwa  3  kHz  (siehe  Abbildung  7.17)  bei  einer  insgesamt  aber  deutlich 
niedrigeren  Energie  gegeniiber  den  Vokalen. 
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Abbildung  7.17.:  Typisches  Kurzzeit-Leistungsdichtespektrum  des  FYikativs  // /. 

SchStzung  von  Kurzzelt-Leistungsdichtespektren:  Ein  Verfahren  zur  Schatzung  des 
Leistungsdichtespektrums  eines  stochastischen  Prozesses  basiert  im  Prinzip  auf  An- 
wendung  der  diskreten  Fouriertransfonnation  (iiblicherweise  berechnet  nach  dem  Fast- 
Fourjer-Transfonnationsalgorithmus  FFT)  und  anschliefiender  Quadrierung  der  resultie- 
renden  spektralen  Amplitudendichte.  Wie  bei  jedem  Kurzzeitanalyseverfahren  mu(5  dabei 
durch  Anwendung  einer  geeigrieten  Window-Funktion  ein  zeitlich  begrenztes  Signalseg- 
inent  aus  dem  Sprachsignal  entnommen  werden,  wodurch  die  Schatzung  des  Leistungs¬ 
dichtespektrums  Jedoch  zunachst  verfalscht  wird. 

Die  Anwendung  einer  Fenster-Rinktion  im  Zeitbereich  (d.h.  Multiplikation  von  Sprach¬ 
signal  und  Fenster)  korrespondiert  im  Frequenzbereich  mit  einer  Faltung  der  jeweiligen 
Spektraldarstellungen,  d.h.,  das  so  geschatzte  Leistungsdichtespektrum  JP(a()  besteht  aus 
der  Faltung  des  tatsaclilichen  Leistungsdichtespektrums  P(w)  mit  der  quadrierten  Fou- 
riertransformierten  \V  der  Fenster-Funktion  w. 

= 2^irf  r, 

Der  Skalierungsfaktor  |[iu|p  erreclmet  sich  aus  der  Summe  der  Quadrate  aller  Elemente 
der  Fenster-Funktion. 

||,b|P  =  J:  (7.2) 

N 

Wird  dieser  Skalierungsfaktor  kompensiert,  entsteht  eine  bessere  Schatzung  des  Lei- 
stungsdichtespektrviras,  da  sich  die  Schatzung  mit  Erhohung  der  Segmentlange  an  das 
tatsachliche  Leistungsdichtespektrum  zunehmend  annahert.  Bei  Anwendung  eines  nicht- 
rechteckfdrmigen  Fensters  (z.B.  vom  Hamming- Typ),  spricht  man  in  diesem  Zusammen- 
Iiang  von  einem  modifizierten  Periodogramm  (z.B.  in  [Kra94)). 
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Fiir  MODIAS  wird  iin  ersten  Schritt  das  gesanite  mit  einer  Samplingrate  von  22050  Hz 
und  einer  Auflosung  von  16  Bit  aufgezeichnete  Sprachsignal  in  uberlappende  Segmente 
zu  je  512  Samples  eingeteilt.  Die  Oberlappung  wurde  so  gewahlt,  dafe  alle  10  ms  ein  je- 
weils  neues  Segment  beginnt. 

Fiir  jedes  der  entstandenen  Segmente  wird  ein  modifiziertes  Periodogramm  nach  der 
dargestellten  Berechnungsmethode  unter  Nutzung  von  Hamming- Fenstern  ermittelt  (vgl. 
auch  Abbildung  4.19  auf  Seite  75  und  die  zugehorige  Gleichung  4.9  auf  Seite  74). 


Rauschnormierung:  Die  fiir  jedes  Segment  berechneten  modifizierten  Periodogramme 
warden  zur  spiiteren  Merkraalsextraktion  herangezogen.  Um  dabei  Merkmale  zu  erhalten, 
die  unabhangig  von  der  Kurzzeit-Signalenergie  der  jeweiligen  Segmente  sind  (iin  folgen- 
den  als  Segnientenergie  bezeichnet),  muU  vorher  eine  entsprechende  Normierung  erfolgen. 
Ohne  diese  Normierung  wurde  der  Mustererkenner  die  beiden  Klassen  Fi-ikativ  und  Vo- 
kal  nach  entsprechendem  Erkennertraining  an  dem  gravierendsten  Merkmalsunterschied, 
also  der  Segmentenergie,  unterscheiden  und  nicht  wie  gewunscht  an  den  Unterschieden 
in  den  spektralen  Verteilungen. 

Damit  werden  aber  auch  zwangslaufig  diejenigen  Segmente  energienormiert,  die  gerade  in 
den  nicht  relevanten  Sprechpausen  zu  liegen  kommen.  Hierin  liegt  ein  ganz  grundsatzli- 
ches  Problem;  denn  weicht  hier  das  stets  vorhandene  Grundrausclien  des  Aufzeichnungs- 
systems  nur  geringfiigig  von  einer  weilJen  Rauschcharakteristik  ab,  was  innerhalb  einer 
Storstrahlungsumgebung  eines  PC  stets  der  Fall  sein  diirfte,  ist  das  Erkennungsverhal- 
ten  innerhalb  dieser  Zeitraume  nicht  mehr  vorhersagbar.  Ein  niederfrequente  Netzstorung 
wiirde  beispielsweise  nach  der  Normierung  des  modifizierten  Periodograinms  sicher  zu  ei¬ 
ner  Klassifizierung  als  Vokal  fuhren,  denn  die  resultierende  Form  des  energienormierten 
Spektrums  ist  durch  die  dominanten  Anteile  bei  relativ  niedrigen  Frequenzen  einem  Vo- 
kalspektrum  wesentlich  ahnlicher  als  einem  Fi’ikativspektrum. 

Die  rauschartigen  Storungen  werden  hier  additiv  angenommen,  daher  wird  fiir  jedes 
Segment  j  bereits  zu  Anfang  der  Berechnungen  von  dem  geschatzten  Leistungsdichte- 
spektrum  (siehe  Seite  222)  das  mittlere  Leistungsdichtespektrum  der  im  Untersuchungs- 
protokoll  eigens  hierzu  vorgesehenen  Stilleaufzeichnung  subtrahiert  und  damit  dem  be- 
schriebenen  Effekt  vorgebeugt. 
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7. 3. 1,3.  Merkmalsextraktion  und  -reduktion 

Fur  die  weitere  Betrachtung  ist  es  geboten,  sich  an  der  Leistungsfahigkeit  vergleichba- 
rer  Mustererkenniingssysteme  der  Natur  zu  orientleren.  Zur  Klarung  der  Frage,  wieviel 
spektrale  Information  zur  Unterscheidung  der  beiden  Laute  extrahiert  werden  mufi,  sollte 
sinnvollerweise  das  menschliche  Gelior  als  biologisches  Referenzsystem  naher  betrachtet 
werden. 


Bildung  von  gehOrrichtigen  FrequenzkanSlen:  Aus  psychoakustischen  Experimenten 
weifi  man,  daR  bei  der  spektralen  Auswertung  des  Gehors  Schallintensitaten  iimerhalb 
bestimmter  Piequenzbander  aufintegriert  werden.  Verschiedene  spektrale  Intensitaten  in- 
nerhalb  dieser  Prequenzbander,  die  Frequenzgruppen  genannt  werden,  werden  vom  Gehdr 
zusammengefafit  und  als  gemeinsame  Lautheit  wahrgenommen.  Das  Gehor  bildet  die  Fre¬ 
quenzgruppen  an  sehr  vielen  Stellen  entlang  der  Basilarmembran,  wobei  sich  etwas  mehr 
als  600  Piequenzstufen  unterscheiden  lassen.  Die  Breite  einer  Frequenzgruppe  auf  der 
Basilarmembran  ist  dort  unabhangig  von  dem  Ort,  an  dem  sie  gebildet  wild. 

Auf  einer  physikalischen  Prequenzskala  ergibt  sich  allerdings  eine  Abhangigkeit  der  Brei¬ 
te  von  der  Lage  der  Fleqnenzgruppe.  Die  Breite  der  Frequenzgruppen  betragt  unterhalb 
500  Hz  etwa  100  Hz,  oberhalb  von  500  Hz  betragt  die  Bandbreite  etwa  20  Prozent  der 
jeweiligen  Mittenfrequenz,  Werden  die  Frequenzgruppen  liickenlos  nebeneinander  auf  der 
Fi-equenzachse  aufgetragen  (Abbildung  7.18),  so  wird  der  horbare  Frequenzbereich  in  24 
Fiequenzbander  aufgeteilt  (vgl.  [Zwi61]). 

Die  Bandgrenzen  definieren  die  psychoakustische  Tonlieitsskale  mit  der  Dimension  Bark. 
Der  funktionale  Zusammenhang  zwischen  Frequenz  /  und  Tonheit  z  ist  z.B.  in  [Zwi82] 
wie  folgt  angegeben: 

.{/)  =  Waictan  (2^)  +  3.5arctan  (^)  (7,3) 

Der  Tonheitsbereich  z  ■=  i  —  1 ..  .i  definiert  dabei  jeweils  das  Frequenzband  Nr.  i. 

Fiir  alle  weiteren  Betrachtungen  werden  nur  die  Frequenzbander  1 ...  22  herangezogen. 
Die  Tabelle  7.1  stellt  alle  22  (Bark-)Bander  mit  ihren  gem.  Gleichung  7.3  definierten 
unteren  und  oberen  Frequenzgrenzen  orientierend  dar. 
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Abbildung  7.18.:  Kurzzeit-Leistungsdichtespektrum  eines  Vokals  init  linear  skalierter 
Frequenzachse  (oben)  und  nichtlinear  skalierter  Toiiheitsachse  (unten). 
Die  spektrale  Auflosung  im  unteren  Pi-equenzbereich  wird  dabei  deut- 
lich  erhoht. 

Ableitung  der  Datenvektoren:  Stehen  N  Abtastwerte  eines  Signalsegraentes  zur 
Verfiigung,  wird  in  der  zugehorigen  Spektraldarstelluiig  die  ursprunglich  frequenzkon- 
tinuierliche  Variable  w  durch  die  frequenzdiskrete  Variable  w,n  ersetzt.  Somit  ist  das 
Leistungsdichtespektrum  auch  nur  an  den  Stiitzstellen  u>m  =  mAu)  bzw.  fm  =  mAf 
definiert. 

Das  Leistungsdichtespektrum  besteht  bekanntermafien  nach  Transformation  eines  Si- 
gnalsegments  der  Lange  N  aus  wiederum  N  spektralen  Komponenten,  jedoch  sind  davon 
nur  M  =  N/2  voneinander  unabhangig,  so  daiS  sich  der  relevante  Teil  des  diskreten 
Leistungsdichtespektrums  nur  zwischen  den  Frequenzwerten  0  •  Aw . . .  {N/2  —  1)  •  Aw 
erstreckt. 

Das  Theorem  von  PARSEVAL  gibt  den  Zusammenhang  zwischen  Leistungsdichte¬ 
spektrum  P(w,n)  und  Energie  E  des  betrachteten  Signalsegmentes  s(n)  der  Lange  N 
an: 

M-l 

m=0 
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Ebeuso  lafit  sich  iiber  dieses  Theorem  auch  der  fiir  die  weitere  Betrachtung  relevaiite 
relative  Beitrag  eines  einzelnen  Bark-Bandes  i  zur  (gesamten)  Energie  E  des  Segraentes 
angeben  (Er  wild  in  der  folgeiiden  Ableitung  als  Ei  bezeiclinet,  obwohl  es  sich  hier  nur 
noch  um  eineii  diinensionslosen  Quotienten  handelt): 

t  PM 

=  mTT -  0<u<o<M~l  (7.5) 

E  PM 

m=:0 

Fiir  MODIAS  werden  im  Rahmen  der  beschriebeneii  Realisierung  die 

•  spektralen  Komponenten  des  Leistungsdichtespektrums  oberhalb  22  Bark  bzw.  10.5 
kHz  entfernt  (vgl.  Tabelle  7.1),  die 

•  relativen  Energiebeitrage  Ei  der  Bark-Bander  i  =  1 ...  22  gem.  Gleichung  7.5  er- 
mittelt  und  daraus 

•  pro  Segment  ein  Datenvektor  £  gebildet,  der  sich  aus  diesen  22  relativen  Energie- 
beitragen  zusammensetzt. 

Der  Index  de.s  betrachteten  Segments  sei  j.  Bedingt  durch  die  Art  der  Normierung  gem. 
Gleichung  7.5  gilt  daher; 

22 

=  l  V  }  (7.6) 

i=l 

Die  derart  gebildeten  Datenvektoren  bilden  die  gehdrrichtig  skalierte,  energienormierte 
spektrale  Energieverteilung  der  jeweiligen  Signalsegmente  ab.  Bedingt  durch  die  erfor- 
derlichen  Integrationen  iiber  die  22  Frequenzbander  werden  hierbei  storende  Einfliisse 
durch  Stimmparameter  wie  die  absolute  Lage  der  Stimmbandgrundfrequenz  und  deren 
Schwankungen  oder  eventuell  auftretende  Raiihigkeits-  bzw.  Behauchtheitsphanomene 
kompensiert.  Sie  stellen  die  Grundlage  fvir  alle  weiteren  Entwurfsschritte  des  gewahlten 
Mustererkenners  dar. 

Die  folgenden  Abbildungen  zeigen  die  typischen,  fiir  einen  Normsprecher  ermittelten  Da¬ 
tenvektoren  fiir  die  3  Prikative  /s/  (Abbildung  7.19),  ///  (Abbildung  7.20)  und  /x/ 
(Abbildung  7.21)  rnit  den  jeweils  zugeordneten  Datenvektoren  der  unmittelbar  vorange- 
henden  Kontrastvokale. 
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Abbildung  7.19.:  Typischer  Datenvektor  fiir  den  Frikativ  /s/  (durchgezogene  Linie)  und 
den  vorangehenden  Vokal  /a/  (gestrichelte  Linie)  niit  den  relativen 
Energieanteilen  der  22  Bark- Bander 

Ableitung  der  Merkmalsvektoren:  Die  Abbildungen  7.19,  7.20  und  7.21  zeigen 
bereits  deutlich,  dafe  fiir  einen  Mustererkenner  die  Klassifikat.ion  zwischen  Filkativ  und 
zugehorigeni  Kontrastvokal  anhand  der  vorgestellten  Datenvekfcoren  vergleichsweise 
einfach  zu  realisieren  sein  durfte.  Schwieriger  hingegen  mufi  die  im  zwelten  Tell  des 
Kapitels  dargestellte  Klassifikation  der  3  Frikativklassen  selbst  eingeschatzt  werden, 
denn  die  Unterschiede  sind  hier  nur  vergleichsweise  gering.  Jedoch  ist  beiden  Klassifi- 
kationsaufgaben  gemeinsam,  daR  die  Information  fiber  die  Klassenzugehorigkeit  in  der 
Abhangigkeit  der  22  Datenvektorelemente  liegt  und  damit  analysiert  werden  muiJ. 

Die  Diskriminanzanalyse,  erstmals  vorgestellt  von  Sir  Ronald  Fisher,  ist  das  am 
haufigsten  angewandte  Verfahren  der  Statistik  zur  Losung  derartiger  Problemstellungen 
[Nor93]. 

Das  zu  Grunde  liegende  Gedankenmodell  ist  einfach,  denn  es  werden  handhabbare 
Linearkombinationen  der  unabhangigen  Variablen  bzw.  Pradiktoren  gesucht,  die  eine 
Basis  fiir  eine  Zuordnung  einzelner  Muster  in  eine  der  Klassen  bilden.  Die  gesuchte 
Diskriniinanzfunktion  besteht  aus  demjenigen  Satz  von  Koeffizienten,  der  nach  Line- 
arkombination  mit  alien  zur  Verfiigung  gestellten  Datenvektoren  einer  Normgruppe 
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Abbiklung  7.20.:  Typischer  Datenvektor  fiir  den  Prikativ  ///  (durchgezogene  Linie)  und 
den  vorangehenden  Vokal  /a/  (gestrichelte  Linie)  mit  den  relativen 
Energieanteilen  der  22  Bark-Bander 

eine  optimale  Klassentrennbarkeit  sicherstellt  bzw.  eine  Zuordnung  mit  mininialer 
Fehlklassifikationsrate  gestattet.  Diese  Diskriminanzfunktion  besteht  hier  (wie  auch  die 
Datenvektoren)  aus  22  Elementen  Bi . . .  B22  und  einer  additiven  Konstante  Bo- 
Das  Ergebnis  der  Linearkombination  aus  Diskriminanzfunktion  und  Datenvektor  des 
j-ten  Segmentes  £j  ist  der  Diskriniinanzscore  Dj: 

22 

Dj  =  Bo  H-  Bi5ji  -f  B2£j2  +  . . .  +  B22^j72  —  Bq  4-  Bi£j^  {7-7) 

t=i 

Dainit  wird  die  Gesamtinformation  des  22-eIementigen  Datenvektors  £j  auf  einen 
einzigen  Wert  Dj  reduziert;  durch  Reduktion  entsteht  aus  dem  22-dimensionalen 
Datenvektor  ein  1-dimensionaler  Merkmalsvektor. 

Der  Diskriniinanzscore  wird  fiir  jedes  Signalsegment  j  =  1  :  J  bzw.  jeden  Daten¬ 
vektor  £j  der  gesaniten  Aufzeichnung  ermittelt.  Es  entsteht  so  ein  Scoreverlauf  iiber 
der  Zeit,  der  mit  der  spektralen  Verteilung  der  Segmentspektren  und  somit  mit  der 
Giite  der  Artikulation  korreliert.  tfblicherweise  weist  der  Scoreverlauf  innerhalb  der 
Realisierungsdauer  von  Frikativen  bzw.  Vokalen  lokale  Extremwerte  auf  (siehe  Abbildung 
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Abbildung  7.21.:  Typischer  Datenvektor  fiir  den  Fiikativ  /%/  (durchgezogene  Linie)  und 
den  vorangehenden  Vokal  /a/  (gestrichelte  Linie)  mit  den  relativen 
Energieanteilen  der  22  Bark-Bander 


7.22). 

Diese  Extremwerte  des  Diskriininanzscores  werden  fiir  die  spatere  Klassifikation  des 
Mustererkenners  in  die  beiden  Klassen  Frikativ  bzw.  Vokal  herangezogen,  die  hierzu 
erforderliche  Entscheidungsstrategie  wird  noch  eingehend  in  einem  spateren  Teil  der 
Arbeit  beschrieben.  Der  aussagekraftigere  zeitliche  Verlauf  des  Diskriminanzscores  steht 
dem  Untersucher  im  grafischen  Bewertungseditor  zur  Verfiigung  (siehe  Abbildung  7.6 
auf  Seite  205). 

7.3. 1.4.  Erkennertraining 

Das  Erkennertraining^  also  die  empirische  Optimierung  des  Mustererkenners  zur  L6- 
sung  der  gestellten  Klassifikationsaufgabe  anhand  einer  hinreichend  grofeen  TVainings- 
Stichprobe  sprechgesunder  Probanden,  besteht  bei  der  realisierten  Entwurfsstrategie  in 
der  Durcbfiihrung  einer  2-Klassen-Diskriminanzanalyse  und  damit  der  Gewinmmg  einer 
geeigneten  Diskriminanzfunktion.  Dabei  ist  fiir  die  3  Klassifikationsaufgaben 

•  Frikativ  /s/  gegeniiber  Kontrastvokal  /a/ 
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0.8 


t{sec] 


Abbildutig  7.22.;  Durch  Auftragen  dei*  Diskriminanzscores  Dj  iiber  einer  Zeitachse  ent- 
steht  der  gesuchte  Parameterverlauf,  der  mit  der  Giite  der  Artikulation 
stark  korreliert.  Dargestellt  ist  der  Verlauf  fiir  das  Wort  lassen^  der 
Diskriininanzscore  erreicht  hier  negative  Werte  fur  den  Vokal  /a/  und 
positive  Werte  fiir  den  Frikativ  /s/. 

•  FYikativ  // /  gegeniiber  Kontrastvokal  /a/ 

•  Piikativ  /x/  gegeniiber  Kontrastvokal  /a/ 

jeweils  eine  eigene  Diskriminanzfunktion  erforderlich.  Es  entstehen  letztlich  3  separate 
Mustererkeiiner  mit  unterschiedliclien  Eigehschaften  bei  identischer  Entwurfsstrategie. 


Methodischer  Ansatz:  Die  Trainingsphase  erfordert  eine  Handsegmentierung  jeder 
einzelnen  Aufzeichnung  der  TVainings-Stichprobe.  Dabei  wird  iiber  visuelle  Priifung 
(Oszillogramm)  und  gleichzeitig  perzeptive  Kontrolle  (Lautsprecher)  fiir  jeden  Vokal 
bzw.  jeden  Frikativ  jeweils  ein  reprasentatives  Signalsegment  bzw.  dessen  zugehoriger 
Datenvektor  extrahiert.  Die  Information  beziiglicli  der  Klassenzugehorigkeit  ist  dabei 
bekannt.  Die  Menge  der  so  entnommenen  Datenvektoren  beider  Klassen,  jeweils  versehen 
mit  der  Zusatzinformation  der  Klasse,  bilden  die  Basis  zur  Durchfiihrung  der  Analyse, 
die  im  AnschluB  mit  einem  der  etablierten  Statistik-Programme,  hier  SPSS,  erfolgt. 
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Am  Ende  einer  2-Kiassen-Diskrlminanzanalyse  stehen  grundsatzlich  mehrere  Ein- 
zelergebnisse  zur  Verfiigung,  das  sind 

•  die  gesuchte  Diskriminanzfunktion,  die  eine  optimale  Klassentrennbarkeit  anhand 
des  Diskriminanzscores  gestattet, 

•  die  beiden  Verteilungen  der  Diskriminanzscores,  die  sich  durch  Anwendung  der 
Diskriminanzfunktion  auf  samtliche  Muster  der  Trainings-Stichprobe  ergeben, 

•  die  Mittelwerte  bzw.  Zentroide  der  beiden  so  entstandenen  Verteilungen. 


Abblldung  7.23.:  Erhaltene  Haufigkeitsverteilung  der  Diskriminanzscores  nach  erfoigter 
2-Klassen-Diskriminanzanalyse.  Die  Klasse  der  Vokale  besitzt  hier  ne¬ 
gative,  die  Klasse  der  Frikative  positive  Diskriminanzcores. 

Das  Programmpaket  SPSS  bestimmt  die  Diskriminanzfunktion  derart,  daft  die  Mittel¬ 
werte  der  beiden  entstehenden  Verteilungen  gleichen  Betrag,  aber  unterschiedliches  Vor- 
zeichen  besitzen. 

Vorlaufige  Stichprobe:  Um  fiir  jedes  der  Einzelworter  jeweils  genau  einen  reprasenta- 
tiven  Datenvektor  fiir  den  Rikativ  und  den  unmittelbar  vorangehenden  Kontrastvokal 
zu  erhalten,  ist  eine  manuelle  Segmentierung  der  Aufzeichnungen  erforderlich.  Waren  die 
Diskriminanzfunktionen  auf  Basis  der  Trainings-Stichprobe  zu  diesem  Zeitpunkt  bereits 
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vorhanden,  liefie  sich  die  Segmeiitierung  komfortabel  in  dem  grafischen  Bewertungseditor 
(vgl.  Abbildung  7.6  auf  Seite  205)  vornehmen,  der  den  zeitlichen  Verlauf  der  Diskrimi- 
naiizscores  und  des  zeitsynchronen  Oszillogramms  darstellt  und  damit  bereits  auf  die 
Orte  von  Prikativen  bzw.  Vokalen  innerhalb  des  Sprachsignales  zeigt.  In  der  Phase  des 
Erkennertrainings  standen  die'se  Diskriminanzfunktionen  aber  logisclierweise  noch  nicht 
zur  Verfugung. 

Dalier  wurden  ziinachsfc  Diskriminanzfunktionen  auf  Basis  einer  vorlaufigen  Stichpro- 
be  berechnet,  bestehend  aus  1  mannlichen  und  1  weiblichen  Sprecher  (Tabelle  7.2)  init 
jeweils  10  Wiederholungen,  um  die  grafische  Segmentierungsunterstiitzung  zumindest 
eingesclirankt  nutzen  zu  konnen.  Die  Ergebnisse  dieser  Voranalyse  sind  hier  weniger  von 
Interesse  und  werden  daher  nicht  explizit  dargestellt.  Zusatzlich  wurde  innerhalb  der  Be- 
dienungsoberflache  des  grafischen  Bewertungseditors  eine  Spezialroutine  implementiert, 
die 


•  anhand  des  vorlaufigen  Scoreverlaufes  die  Orte  von  Prikativ  bzw.  Vokal  vorschlug, 

•  eijie  Verschiebbarkeit  dieser  Orte  ermbgliclite  mit  paralleler  perzeptiver  Kontrolle, 

•  auf  Wunsch  die  beiden  Dateiivektoren  an  den  gewahlten  Zeitpunkten  entnahm  und 
automatisch  in  eine  Datenbank  portierte. 

Trainings-Stichprobe:  Die  Gewinnung  von  Trainingsdaten  erfolgte  an  sprechgesunden 
Probanden  im  Rahmen  einer  Erhebung  an  der  Universitat  der  Bundeswehr  Miinchen  und 
der  Entwicklungsgruppe  Klinische  Neuropsychologie  Munchen-Bogenhausen. 

Jeder  Proband  hatte  dabei  die  Aufgabe,  samtliche  Einzelwortaufzeichnungen  der  Patien- 
tensitzung  des  Moduls  PRIKATIVARTIKULATION  in  gewohnter  Geschwindigkeit  und 
Stimmlage  aufzusprechen.  Auf  diese  Weise  entstanden  fiir  jeden  Probanden  Aufzeichnun- 
gen  von  insgesamt  36  Einzelwdrtern,  davon  jeweils  12  fiir  die  unterschiedenen  Prikative 
/s/,  ///  bzw.  /x/.  Vor  jeder  Aufzeichnung  wurden  aufierdem  folgende  Zusatzinforma- 
tiouen  erfal^t: 
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Alter  [Jahre] 
Geschlecht  [m/w] 
Rancher  [Ja/Nein], 


7.5.  Technische  Realisierung:  Entwickelte  Verfahren  und  AJgonthmen 

Um  eventuelle  Verfalschungen  der  Statistik  zu  vermeiden,  wurde  vorsorglich  jeder  Pro¬ 
band  befragt,  ob  nach  seinem  eigenen,  subjektiven  Empfinden  eine  (wenn  auch  noch  so 
gering  ausgepragte)  Stimm-  oder  Artikulationsstorung  vorliegt.  Dies  wurde  von  keinem 
der  Probanden  bejaht. 

Die  verwendete  T\amings-Stichprobe  setzte  sich  gem.  Tabelie  7.3  zusammen.  Die  iin  Rah- 
men  der  Entwicklung  zahlreich  durchgefixhrten  Diskriminanzanalysen  zeigten  zunachst, 
dai?  durch  Aufteilung  der  TVainings-Stichprobe  nach  dem  Ge.schlecht  wesentlich  bessere 
Klassifikationsergebnisse  erreicht  werden  konnten.  Die  Ursache  hierfiir  ist  in  der  signifi- 
kant  unterschiedlichen  Stimmbandgrundfrequenz  bzw.  Sprechstimmlage  begriindet.  Die 
mannliche  Stimine  besitzt  eine  mittlere  Grundfrequenz  von  ca.  120  Hz,  die  weibliche 
Stimme  von  ca.  220  Hz  [CryOS].  Dadurch  sind  systematische  Unterschiede  in  den  Tei- 
lenergien  Ei  der  Bander  1-3  (vgl.  Gleichung  7.5)  und  damit  in  den  Datenvektoren  zu 
erwarten. 

Das  bedeutet,  dalJ  geschlechtsspezifische  Diskriminanzfunktionen  verwendet  werden  miis- 
!Sen.  Die  Information  bezviglich  des  Geschlechts  wird  im  Organisationsmenu  abgefragt  und 
steht  daher  im  System  zur  Verfiigung. 

Auf  diese  Weise  entstanden  fvir  jeden  der  25  Probanden  (Tabelie  7.3)  und  pro  Klassi- 
fikationsaufgabe  jeweils  12  Datenvektoren  fur  die  Klassen  Prikativ  bzw,  Kontrastvokal 
(insgesamt  waren  36  Worter  zu  sprechen,  davon  je  12  pro  Frikativtyp  bzw.  Klassifikati- 
onsaufgabe,  jedes  Wort  enthalt  dabei  je  einen  Prikativ  bzw.  Kontrastvokal). 

Tabelie  7.4  listet  samtliche  auf  Basis  der  Trainings-Stichprobe  gem.  Tabelie  7.3  durchge- 
fiihrten  Diskriminanzanalysen  auf  mit  der  jeweils  zur  Verfiigung  stehenden  Anzahl  von 
Datenvektoren. 


Ergebnisse  der  Diskriminanzanalysen:  Die  erforderlichen  2-Klassen- 
Diskriminanzanalysen  gem.  Tabelie  7.4  wurden  mit  dem  Statistik-Programmpaket 
SPSS  durchgefiihrt.  Dabei  resultierten  die  in  Tabelie  7.5  aufgelisteten  Diskriminanz¬ 
funktionen  bzw.  deren  Koeffizienten  Bq...B22-  Die  zugehorigen  Verteilungsmittelwerte 
(Erlauterung  hierzu  auf  Seite  231)  sind  in  Tabelie  7,6  zusammengestellt. 
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7. 3. 1.5.  Klasstfikation 

Aufgabe  der  Kla.ssifikation  ist  es  nun,  nach  Anwendung  der  Diskrimiuanzfunktloii  auf  ein 
neues,  unbekannte.s  Muster  einer  Teststichprobe  von  dem  resultierenden  Diskriminanzsco- 
re  D  inoglichst  sicher  auf  die  Klassenzugehbrigkeit  zur  Klasse  k  zu  scliliefien.  Die  Basis  fiir 
die  Konstruktion  einer  Zuordimngsregel  ist  die  a-priori  gegeben  Struktur.  Unter  Ausnut- 
zung  der  bekannteii  Klassenzugehbrigkeit  der  Datenvektoren  einer  Tiainings-Stichprobe 
niuB  eine  Entscheidungsregel  definiert  werden,  die  nichts  anderes  leistet,  als  die  Objekte 
der  Trainings-Sticliprobe  (und  dariiber  hinaus  in  Zukunft  zuzuordnende  Objekte)  mbg- 
lichst  fehlerfrei  in  die  vorgegebenen  Klassen  einzuordnen.  Die  eigentliche  Leistung  besteht 
darin,  diese  Zuordnung  init  den  gewahlten  und  zuganglichen  Merkinalen  zu  bewerkstel- 
ligen. 

Die  Konstruktion  eines  in  statistischem  Sinne  optimalen  Klassifikators  setzt  einen  funk- 
tionalen  Zusatnmenhang  voraus,  der  fiir  jeden  Punkt  im  Merkmalsrauin  angibt,  wie  wahr- 
sclieinlich  die  Zugehbrigkeit  des  Musters  zu  einer  der  beiden  Klassen  ist. 

Bei  hinreichender  GrbEe  der  Norinstichprobe  kann  davon  ausgegangen  werden,  dafi  die 
Muster  einer  Klasse  von  einem  ZufallsprozeS  erzeugt  werden,  dessea  GesetzmalJigkeit 
durch  eine  gauSfbnnige  Wahrscheinlichkeitsdichtefunktion  beschrieben  wird. 

Die  Ableitung  einer  entsprechenden  Entscheidungsregel  ist  im  wesentlichen  aus  [Rus94] 
entnonunen.  Sie  erfordert  zunachst  folgende  Definitionen: 


•  Die  Wahrscheinlichkeit,  dafi  ein  Muster  D  zur  Klasse  k  gehort,  sei  durch  die  be- 
clingte  Wahrscheinlichkeit  pik\D)  ausgedriickt, 

•  Die  Kostenfunktion  lij  gibt  die  Kosten  an,  die  entstehen,  wenn  der  Klassifikator 
sich  fiir  die  Klasse  j  entscheidet,  obwohl  das  Muster  zur  Klasse  i  gehort. 

•  Das  bedingte  Risiko  rj{D)  gibt  den  Erwartungswert  der  entstehenden  Kosten  bei 
einer  Entscheidung  des  Klassifikators  zur  Klasse  j  an. 


Das  bedingte  Risiko  kann  fiir  K  Klassen  mathematisch  wie  folgt  dargestellt  werden; 

K 

riW='E‘irPm)  (7.8) 

»=1 
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Die  Entscheidung  ist  dann  optimal,  wenn  das  bedinge  Risiko  und  damit  die  Kosten 
minimal  sind,  also  gilt: 

rj{D)  Min  (7.9) 

Der  Ausdruck  kann  vereinfacht  werdeii,  wenn  die  richtige  Entscheidung  des  Klassifikators 
keine  Kosten,  die  falsche  Entscheidung  hingegen  konstante  Kosten  verursacht,  also: 


hj  =  0  bei  richtiger  Entscheidung  und  kj  =  C  bei  falscher  Entscheidung 

(7.10) 

Damit  ergibt  sich  fiir  das  bedingte  Risiko  folgender  Ausdruck; 

K  K 

'■  U{D)  =  '£o.p(k\D)+  ^  C-p{,k\D)  =  Y.<^-r>(k\D)-C-,,l,j\D)  (7.11) 

k=\  k=l 


bzw.  nach  Vereinfachung 


rj(D)  =  C- 


r  K 

Y^p{k\D)~p(j\D) 

,fc=i 


(7.12) 


Da  das  Muster  D  sicher  zu  einer  der  K  Klassen  gehort,  gilt: 


J^pWd)  =  1 

k=l 


(7.13) 


Damit  vereinfacht  sich  Gleichung  7.12  zu: 


r,(D)  =  C.[l-p(i|D)] 


(7.14) 


Das  Minimum  des  bedingten  Risikos  wird  gefunden,  wenn  jeweils  diejenige  Klasse  aus- 
gewahlt  wird,  fiir  die  die  bedingte  Wahrscheinlichkeit  p(/i:|D)  maximal  ist.  Die  kostenop- 
timale  Entscheidungsregel  lautet  damit: 

I?  e  t  wenn  p{i\D)  >  p{j\D)  fiir  alle  j  =  1 ...  K,j  i  (7.15) 

Diese  Entscheidungsregel  ist  als  Identifikationsregel  bekannt,  die  dem  Bayes-Klassifikator 
zu  Grunde  liegt.  Die  Gebietseinteilung  des  vom  hier  eindimensionalen  Diskriminanzscore 
D  aufgespannten  Merkmalsraumes  lai^t  sich  grafisch  anschaulich  darstellen  (Abbildung 
7.24), 

Die  bedingte  Wahrscheinlichkeit  p{k\D)  gibt  Aufschlufi  dariiber,  wie  wahrscheinlich  die 
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P(2|D]^ 

RflckscIiliiB  w  all!' sell  einliclik  eiten 

Klassel  KJasse2 

Abbildung  7.24.:  Gebietseinteilung  des  Merkmalsraumes  fur  den  Bayes-Klassifikator  bei 
2  Klassen 


Zugehorigkeit  eines  Musters  zur  Klasse  k  bei  Beobachtung  des  Diskriminanzscores  D  ist 
(RuckschluSwahrscheinlichkeit).  Somit  ordnet  die  Identifikationsregel  das  beobachtete 
Muster  der  statistisch  walirscheinlichsten  Klasse  zu.  Sie  kann  fiber  den  Satz  von  BAYES 
berechnet  werden,  der  den  folgenden  Zusammenhang  definiert: 


P(D\k)  = 


p{k\D)-p{D) 

p(k) 


(7.16) 


Die  jetzt  enthaltene  bedingte  Wahrscheinlichkeit  p{D\k)  stellt  die  klassenweise  Wahr- 
echeinlichkeitsfunktion  bzw.  Likelihood- Fkmktion  dar,  deren  Parameter  im  Gegensatz  zur 
RiickschluS wahrscheinlichkeit  durch  Beobachtung  des  stochastischen  Prozesses  unmittel- 
bar  geschatzt  werden  kann.  Sie  besclireibt  die  Wahrscheinlichkeit,  daS  der  beobachtete 
Diskriminaiizscore  D  von  einem  Muster  der  Klasse  k  erzeugt  wird.  Die  Wahrscheinlich¬ 
keit  p(k)  ist  die  Auftrittswahrscheinlichkeit  der  Klasse  k,  die  den  Prozefi  charakterisiert 
und  a  priori  bekannt  ist. 

Durch  Anwendung  des  Satzes  von  BAYES  kann  daher  die  Entscheidungsregel  des  Bayes-. 
Klassifikators  auch  umgeformt  werden.  Sie  lautet  in  anderer  Form: 


Dei  wenn  jD(i)  •  p{D\i)  >  p{j)  •  p{D\j)  fiir  alle  j  =  I . . .  K,j  ^  i  (7.17) 


Hierbei  wird  eine  wichtige  Eigenschaft  erkennbar,  namlich  dafi  die  Entscheidung  des 
Bayes-Klassifikators  wesentlich  von  der  Auftrittswahrscheinlichkeit  der  jeweiligen  Klasse 
abhangt.  Die  Muster  der  haufiger  auftretenden  Klasse  werden  sicherer  klassifiziert  als  die 
Muster  der  seltener  auftretenden  Klasse.  Vom  systemtheoretischen  Aspekt  betrachtet 
besitzen  aber  gerade  die  seltener  auftretenden  Muster  den  hoheren  Informationsgehalt 
und  bediirfen  daher  einer  sichereren  Klassifikation. 
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Um  dieaen  Nachteil  des  Bayes-Klassifikators  zu  kompensieren,  wird  die  zur  Ablei* 
tung  der  Entscheidungsregel  eingefiihrte  Kostenfuiiktlon  modifiziert.  Die  Kosten  fiir  eine 
richtige  Entscheidung  sollen  gleich  Null  sein,  die  Kosten  fiir  eine  Fehlentscheidung  sollen 
sich  jetzt  umgekehrt  proportional  zur  Auftrittswahrscheinlichkeit  der  Klasse  verhalten. 

hj  =  0  bei  richtiger  Entscheidung  und  kj  =  l/p{i)  bei  falscher  Entscheidung 

(7.18) 

Damit  entsteht  eine  neue  Entscheidungsregel,  die  im  Gegensatz  zu  der  vorherigen  unab- 
hangig  von  den  klassenspezifischen  Auftrittswahrscheinlichkeiten  ist. 

D  e  i  wenn  p(D|0  >  p{D\j)  fiir  alle  (7.19) 

Die  Zuordnung  wird  jetzt  zu  derjenigen  Klasse  getroffen,  deren  klassenspezifische 
Wahrscheinlichkeitsfunktion  fur  den  beobachteten  Diskriminanzscore  D  den  hochsten 
Wert  liefert.  Diese  Entscheidungsregel  definiert  den  Maximum-Likelihood-Klassifikator, 
dessen  Gebietseinteilung  des  Merkmalsraumes  sich  auch  wieder  grafisch  veranschaulichen 
la£t  (Abbildung  7.25). 


Abbildung  7.25.:  Gebietseinteilung  des  Merkmalsraumes  fiir  den  Maximum-Likelihood- 
Klassifikator  bei  2  Klassen 

Durch  Vergleich  der  beiden  Entscheidungsregeln  von  Bayes-  und  Maximum-Likelihood- 
Klassifikator  wird  klar,  daS  bei  gleichen  Auftrittswahrscheinlichkeiten  p{k)  der 
betrachteten  Klassen  k  beide  Klassifikatoren  identisch  sind  bzw.  deren  Entscheidungsre¬ 
geln  identische  Ergebnisse  liefern.  Damit  ist  der  Maximum-Likelihood-Klassifikator  ein 
Spezialfall  des  Bayes-Klcissifikators. 

Diese  Eigenschaft  wurde  bei  der  Realisierung  in  MODI  AS  genutzt,  indem  im  Rahmen 
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des  Erkennertrainings  bzw.  der  2-Klassen-Diskriminanzanalyse  jeweils  genau  gleich  viele 
Datenvektoren  fiir  die  beiden  Klassen  Prikativ  bzw.  Vokal  herangezogen  warden  uiid 
damit  die  gleiche  Auftrittswahrscheinlichkeit  der  beiden  Klassen  erzwungen  wurde. 
Diesel-  Ansatz  wurde  zuvor  bereits  bei  der  Auswahl  des  Wortmaterials  berucksichtigt, 
da  jedes  Einzelwort  je  1  Frikativ  bzw.  Kontrastvokal  enthalten  muK.  Im  Folgenden 
wird  daher  die  gewahlte  Realisierung  eines  Bayes-Klassifikators  aufgezeigt,  der  auf 
Grund  des  Spezialfalles  gleicher  Auftrittswahrscheinlichkeiten  zugleich  auch  einen 
Maximum- Likelihood-Klassifikator  darstellt. 

Die  Anwendung  der  Entscheidungsregel  gem.  Gleichung  7.19  und  damit  der  stati- 
stischen  Optimalklassifikation  bedarf  zur  Implementierung  zunachst  der  Ermittlung  der 
klassenweisen  Wahrscheinlichkeitsfunktipnen.  Es  ist  im  Allgemeinen  nicht  moglich,  diese 
Funktionen  tatsachlich  zu  bestimmen. 

Als  Ausweg  bietet  sich  an,  einen  bestimmten  Typ  der  Verteilung  anzunehmen.  Eine 
solche  Annahme  kann  z.B.  aus  der  Kenntnis  uber  den  Prozeft,  der  die  Muster  erzeugt, 
begrundet  sein.  Die  Aufgabe  beschrankt  sich  dann  auf  die  Bestimmung  des  Satzes  von 
Parametern,  der  die  entsprechende  Verteilung  beschreibt. 

Samtliche  Elemente  der  urspriinglichen  22-elementigen  Datenvektoren  sind  stetige, 
Zufallsvariablen.  die  einer  statistischen  Streuung  unterliegen.  Nach  dem  zentralen  ' 
Grenzwerttheorem  (z.B.  [Bor99])  ist  damit  insbesondere  auch  der  Diskriminanzscore, 
der  aus  einer  gewichteten  Summation  aller  dieser  Elemente  besteht,  eine  stetig  noimal- 
verteilte  ZufallsgroEe  (ein  hinreichend  grofier  Stichprobenumfang  vorausgesetzt!).  Daher 
wurden  im  Rahmen  der  Realisierung  die  gesuchten  klassenweisen  Wahrscheinlichkeits- 
funktionen  durch  gauiSformige  Wahrscheinlichkeitsdichtefunktionen  ersetzt. 

Das  verwendete  Statistik-Programmpaket  SPSS  setzt  implizit  solche  Normalverteilungen 
voraus.  Der  Berechnungsalgorithmus  ist  zusatzlich  noch  derart  gestaltet,  daft  die  beiden 
Wahrscheinlichkeitsdichten  nach  N{-D,l)  bzw.  N{DA)  normalverteilt  sind,  d.h. 
betragsmaftig  gleiche  Mittelwerte  bei  einer  Standardabweichung  von  1  besitzen.  Die 
Annahme  von  Normalverteilungen  laftt  sich  in  indirekter  Weise  rechtfertigen,  wenn 
damit  letztlich  eine  hohe  Erkennungsrate  erzielt  werden  kann  (|Ru594]).  Die  weitere 
Klassifikationsstrategie  fufit  auf  dieser  Annahme. 

Die  Zuordiiung  zu  einer  der  beiden  Klassen  Fiikativ  bzw.  Vokal  ist  unter  den  ge- 


238 


7.3.  Technische  Realisierung:  Entwickelte  Verfahren  und  Algorithwen 


troffenen  Annahmen 

•  normalverteilter  Wahrscheinlichkeitsdichten  bei 

•  betragsmafiig  gleichen  Veiteilungsmittelwerten 

einfach.  Es  ist  leicht  vorstellbar,  dafJ  sich  die  beiden  klassenspezifischen  Wahrschein- 
lichkeitsdichtefunktionen  auf  Grimd  ihrer  betragsmaEig  gleichen  Verteilungsmittelwerte 
stets  bei  £>  =  0  schneiden.  Die  hier  gewahlte  Klassifikationsstrategie  schreibt  ja  gerade 
die  Zuordnung  zu  der  Klasse  mit  dem  maximalen  Wert  der  Wahrscheinlichkeitsdichte- 
fuiiktion  vor,  damit  fallt  die  Entscheidung  des  realisierten  Mustererkeuners  ausschliefelich 
anhand  des  Vorzeichens  des  Diskriminanzscores.  Hierzu  muR  aus  der  ursprunglichen 
Diskriminanzanalyse  der  Trainings-Stichprobe  neben  der  Diskriminanzfuiiktion  selbst 
nur  noch  einer  der  beiden  Verteilungsmittelwerte  bekannt  sein. 

An  dieser  Stelle  der  Berechnungen  stehen  also  fiir  jedes  beliebige  Testmuster  zwei 
Informationen  zur  Verfiigung,  das  sind 

•  der  erreichte  Diskriminanzscore  D,  sowie 

•  die  zugeordnete  Klasse  k. 

Zusatzlich  wurde  in  die  Auswertung  des  MODIAS-Moduls  FRIKATIVARTIKULATION 
neben  der  reinen  Aussage  der  Zuordenbarkeit  zur  Klasse  Frikativ  bzw,  Vokal  auch  die 
Wahrscheinlichkeit  der  Zugehorigkeit  zu  dieser  Klasse  berucksichtigt,  urn  die  Entschei¬ 
dung  des  Mustererkeuners  transparenter  zu  machen  und  damit  eine  Aussage  zu  erhalten, 
mit  welcher  statistischen  Sicherheit  diese  Klassifikation  vorgenommen  wurde.  Zielrich- 
tung  ist  auch  hier,  ein  MaR  fiir  die  artikulatorische  Realisierungsqualitat  zu  erhalten,  die 
aber  im  Gegensatz  zum  reinen  Verlauf  des  Diskriminanzscores  in  einem  Wertebereich 
zwischen  0  und  1  besonders  anschaulich  skaliert  ist.  Hierfiir  muU  zuminde.st  eine  der  bei¬ 
den  RiickschluRwahrscheinlichkeiten  ermittelt  werden. 

Fiir  stetige  Zufallsgr6£en  kann  die  Wahrscheinlichkeit  fiir  das  Auftreten  eines  bestimmten 
Diskriminanzscores  nicht  mehr  angegeben  werden.  Vielmehr  ist  nur  noch  die  Wahrschein¬ 
lichkeit  fiir  das  Auftreten  von  Ereignissen  sinnvoll,  die  sich  in  einem  bestimmten  Intervall 
der  Zufallsvariablen  befinden. 
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Daher  kann  nicht  niehr  die  zur  Berechnung  der  RiickschluSwahrscheinlichkeit  erforderli- 
che  bedingte  Wahrscheinlichkeit  fur  die  Beobachtuiig  des  spezifischen  Diskriminanzsco- 
res  p(D/k),  sondern  nur  die  fiir  p(D<D*/k)  bzw.  p(D>D’''/k)  berechnet  werden.  Damit 
wild  also  mit  dieser  bedingten  Wahrscheinlichkeit  die  Pragestellung  beantwortet,  wie 
wahrscheinlich  der  Diskriminanzscore  D*  oder  ein  noch  weiter  vom  Klassenmittelwert 
entfernt  liegender  Score  auftritt. 

An  dieser  Stelle  erfolgt  durch  Integration  der  Obergang  von  den  Wahrscheinlichkeitsdich- 
tefunktionen  auf  die  zugehorigen  Wahrscheinlichkeitsverteilungen,  also  der  GaulS’schen 
Fehlerfunktion,  Es  ergeben  sich  nach  Aufteilung  des  Merkmalsraumes  in  4  Abschnit- 
te  die  nachfolgenderi  Ausdriicke  fiir  die  gesuchten  bedingten  Wahrscheinlichkeiten  bzw. 
Likelihood-Funktionen  (siehe  Abbildung  7.26).  Die  Funktion  $  ist  das  Gaufi’sche  Fehler- 
integral. 

Die  Klasse  1  (Vokale)  besitze  den  Verteilungsmittelwert  —Dm,  die  Klasse  2  (FVikative)* 
den  Verteilungsmittelwert  +Dm- 


X  <  —Dm 
®  ^  —Dm 
X  <  +Dm 

X  >  +Dm 


(Klasse  1): 

p(x  <  D|l) 

(7.20) 

(Klasse  1): 

p(.T  >  Djl) 

(7.21) 

(Klasse  2): 

p(a:  <  Di2) 

(7.22) 

(Klasse  2): 

p{x  >  D\2) 

(7.23) 

Bedingt  durch  die  gleichen  Auftrittswahrscheinlichkeiten  der  beiden  Klassen  und 
die  betragsmaiSig  gleichen  Verteilungsinittelwerte  werden  beide  Kurven  auch  gleich 
berechnet,  sie  sind  lediglich  gegeneinander  verschoben. 

Die  Umrechnung  auf  die  gesuchten  RuckschluBwahrscheinlichkeiten  erfolgt  wieder  iiber 
das  bekannte  Bayes-Theoiem.  Es  reicht  hierbei  aus,  nur  eine  dieser  Wahrscheinlichkeiten 
(hier:  Fi  ikative  bzw.  Klasse  2)  zu  berechnen,  da  sich  die  Riickschlufiwahrscheinlichkeiten 
beider  Klassen  stets  zu  1  addieren  miissen  und  damit  einfach  umrechenbar  sind. 


p(2|.r  <D)  = 


p(.r<D|2).p(2) 
p{x  <  D) 


p{x<D\l)-p{2) 

p{x  <  D\2)  -^(2)  +p{x  <  D[l)  'p(l) 


(7.24) 
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Abbildung  7.26.:  Einfuhrung  abschnittsweise  definierter  Likelihood-Fimktionen  mit  Ge- 
bietsaufteilung  des  Merkmalsraumes  in  4  getrennte  Bereiche. 


Damit  reduziert  sicli  die  Aufteilung  des  Merkmalsraumes  auf  3  Abschnitte: 


X  <  -Dm- 

p(2\x  <  D) 

2:  >•  +  Dfji' 

p(2\x  <  D) 

X  >  -Dm  und  X  <  -\-Dm' 

p(2\x  <  D) 

^2(.P) 

$2p)  +  «»i(£') 

1  -  $2p) 

1  ~  02(D) -f- 1  -  ^i(D) 

<^2(D) 

02(D) +  l-Oi(D) 


(7.25) 

(7.26) 

(7.27) 


■  Abbildung  7.27.:  Abschnittsweise  definierte  Ruckschlu&wahrscheinlichkeit  zur  Klasse  der 
Prikative  in  Abhangigkeit  des  Diskriminanzscores  D 
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Diese  abschnittsweise  definierte  Punktion  beschreibt  die  Wahrscheinlichkeit  der  Zuge- 
horigkeit  zur  Klasse  der  Piikative  bei  Beobachtung  des  Diskriminanzscores  D.  Sie  zeigt 
erwartungsgeinaE  Punktsyrnmetrie,  steigt  streng  monoton  an  und  schneidet  die  Ordinate 
im  Punkt  (0,0.5),  also  der  bereits  abgeleiteten  Entscheidungsschwelle  in  Abhangigkeit 
des  Vorzeichens  des  Diskriminanzscores  (Abbildung  7.27). 

Ist  diese  Punktion  bekannt,  kann  fiir  jeden  erhaltenen  Diskriminanzscore  eines  Testmu- 
sters  die  Zugehorigkeitswahrscheinlichkeit  abgelesen  werden. 

MODIAS  liefert  diese  Wahrscheinlichkeit  fiir  die  lokalen  Extremwerte  des  Score- 
verlaufes,  also  an  den  Zentren  von  Vokalen  bzw.  Prikativen. 

7.3.2.  Mustererkennerentwurf  zur  Klassifikatlon  In  3  Frikativkiassen 
7.3.2. 1.  Entwurfsstrategle 

Der  zweite  zu  realisierende  Mustererkenner  soli  die  3  Klassen  /$/,  /f /  und  /x/  an- 
hand  ihrer  akustischen  Eigenschaften  differenzieren.  Wahrend  der  erste  Mustererkenner 
den  Problembereich  einer  kontrastreichen  Artikulation  von  Prikativen  gegeniilrer  Voka¬ 
len  beleuchtete,  ruckt  jetzt  der  ebenso  relevante  Problembereich  einer  moglichst  guten 
artikulatorischen  Unterscheidung  der  3  Piikativtypen  selbst  in  den  Mittelpunkt  des  Inter- 
esses.  Dabei  soli  die  Bewertung  ausschlieBlich  anhand  des  Klassifikationsverhaltens  bzw. 
der  ineSbaren  Fehlklassifikationsrate  eines  Mustererkenners  erfolgen. 

Der  Entwurf  gliedert  sich  auch  hier  wieder  systematisch  in  die  bereits  in  Abbildung  7.15 
gezeigten  funktionalen  Bldcke. 

Fiir  die  Losung  des  gestellten  Klassifikationsproblems  werden  in  der  Signalanalysestufe 
aus  einer  geeigneten  Spektraldarstellung  des  Sprachsignals  zunachst  akustische  Parame¬ 
ter  abgeleitet  und  zu  Datenvektoren  zusammengefalSt,  die  moglichst  viele  der  fiir  die 
jeweilige  Artikulation  charakteristischen  Eigenschaften  beinhalten  und  damit  die  klas- 
seuspezifischen  Unterschiede  hinreichend  reproduzieren.  Diese  diirfen  aber  nicht  von 
Stimmparametern  wie  z.B.  Sprechstimmlage,  Stimmqualitat  oder  Anregungsintensitat 
beeinfluSt  werden.  Sie  sollten  weiterhin  auch  unabhangig  vom  gewahlten  Aufzeichnungs- 
systeni  und  seinen  parasitaren  Einflussen  sein,  also  z.B.  von  den  Prequenzgangen  von 
Mikrophon  und  Soundkarte  oder  von  den  stets  vorhandenen  rechnerinternen  Storstrah- 
lungen  durch  das  PC-Netzteil  oder  die  Grafikkarte.  Weiterhin  sollten  die  Datenvektoren 
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innerhalb  der  Zeitfenster,  in  denen  perzeptiv  eine  konstante  Artikulation  vorliegt,  nur 
eine  geringe  Varianz  aufweisen. 

Die  anschlieSende  Merkmalsextraktionsstufe  gewinnt  aus  den  bereitgestellten  Datenvek- 
toreh  die  Merkmale,  die  zur  Klassentrennung  geeignet  sind.  Diese  Aufgabe  wurde  in  die- 
sem  Teil  des  MODIAS-Moduls  durch  Linearkombination  der  Datenvektoren  mit  zwei  spe- 
ziellen  Diskriminanzfunktioiien  gleicher  Elementzahl  gelost;  hierdurch  wird  jeder  mehr- 
dimensionale  Datenvektor  auf  ein  Zahlenpaar,  dem  Diskriminanzscorepaar  (D1,D2)  ab- 
gebildet.  Diese  Wertepaare  werden  als  zuieidimensionale  Merkmalsvektoren  interpretiert, 
die 


•  die  gesamte  enthaltene  Information  der  Datenvektoren  enthalten,  dabei  aber 

•  statistische  Abhangigkeiten  der  Vektorelemente  entfernen  und  gleichzeitig  eine 

•  spezifische  Gewichtung  der  Vektorelemente  entsprechend  ihrer  Relevanz  fiir  eine 
Klassentrennung  berucksichtigen. 

Die  beiden  Diskriminanzfunktionen  werden  anhand  einer  Trainings-Stichprobe  sprech- 
gesunder  Probanden  iiber  das  statistische  Verfahren  der  3-Klassen-Diskriminanzanalyse 
berechnet  und  auf  eine  optimale  Klassentrennbarkeit  optimiert.  Dieser  ProzeS  beinhaltet 
das  stets  erforderliche  Training  des  zu  Grunde  liegenden  Mustererkenners. 

Der  eigentliche  KlassifikationsprozeE  wurde  im  Rahmen  der  MODIAS-Implementierung 
mit  einem  Afa/ia?ano6iS“Abstandsklassifikator  realisiert. 


7. 3. 2. 2.  Signalanalyse 

Es  werden  ausschliefilich  akustische  Parameter  aus  den  entsprechenden  Kurzzeit- 
Leistungsdichtespektren  abgeleitet,  da  im  Spektralbereich  Unterschiede  zwischen  den  3 
Rrikativen  erkennbar  sind.  Frikativspektren  zeigen  grundsatzlich  wegen  der  stimmlosen 
bzw.  rauscliartigen  Anregung  und  des  eingeengten  Artikulationstraktes  eine  vergleichs- 
weise  geringe  Energie,  sie  zeigen  markante  spektrale  Anteile  erst  in  einem  R  equenzbereich 
oberhalb  von  ca.  4  kHz. 

Der  R’ikativ  /s/  ist  in  diesem  Requenzbereich  durch  einen  relativ  konstanten  Verlauf 
des  Leistungsdichtespektrums  charakterisiert  (Abbildung  7.28). 
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Abbilduiig  7.28.;  Typisches  Leistungsdichtespektrum  des  Frikatives  /s/  mit  rauscharti- 
ger  Charakeristik  oberhalb  einer  Frequenz  von  ca.  4  kHz. 

Der  Rikativ  ///  zeigt  einen  zu  hohen  Requenzen  hin  abfallendeii  Verlauf  des  Leistungs- 
dichtespektruins,  da  die  bei  der  Artikulation  gerundeten  und  nach  vorne  gestiilpten  Lip- 
pen  eine  tiefpafiartige  Filtening  bewirken  (Abbildung  7.29). 

Der  Rikativ  /x/  Iiingegen  zeigt  eine  Besonderheit.  Wahrend  bei  dem  Rikativ  /s/  die 
Anregung  durch  das  Passieren  des  aspirierten  Luftstroines  an  der  sehr  weit  vorne  liegen- 
deu  Engstelle  zwischen  Zunge  und  vorderem  Gaunren  entsteht,  erfolgt  bier  die  Anregung 
weiter  zuriickgesetzt  zwischen  Zungenriicken  und  hinterem  Teil  des  Gaumens.  Dadurcli 
erffilirt  das  Anregungssignal  noch  eine  Filterung  durch  den  vorderen  Teil  des  Vokaltrak- 
tes,  das  mspidnglich  raiischartige  Anregungssignal  wird  gefarbt,  und  es  pragen  sich  bei 
niedrigeren  Requenzen  die  eigentlich  vokaltypischen  Formanten  aus  (Abbildung  7.30). 


SchStzung  von  Kurzzeit-Leistungsdichtespektren:  Die  Schatzung  von  Kurzzeit- 
Leistungsdichtespektren  erfolgt  identisch  zu  Kapitel  7. 3. 1.2.  Daher  sei  an  dieser  Stelle 
auf  Seite  222  verwiesen. 
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Abbildung  7.29.:  Typisches  Leistungsdichtespektrum  des  Frikatives  ///  Durch  die  Vor- 
stiilpung  der  Lippen  entsteht  eine  tiefpafiartige  Bedampfung  hoherer 
Frequenzen. 

Rauschnormierung:  Die  Rauschnormierung  erfolgt  identisch  zu  Kapifcel  7. 3.1. 2.  Daher 
sei  an  dieser  Stelle  auf  Seite  223  verwiesen. 


7.3. 2, 3.  Merkmalsextraktion  und  -reduktion 

Bildung  von  gehorrichtigen  Frequenzkanalen:  Die  Bildung  gehorrichtiger  Frequenz- 
kauale  erfolgt  identisch  zu  Kapitel  7.3. 1.3.  Daher  sei  an  dieser  Stelle  auf  die  Seite  224 
verwiesen. 


Ableitung  der  Datenvektoren;  Die  Frikativ-Datenvektoren  gem.  Abbildung  7.19,  7.20 
und  7.21  zeigen,  dafi  fur  einen  Mustererkenner  die  Klassifikation  zwischen  den  3  Fi'ika- 
tivklassen  moglich  sein  muU,  wenn  auch  schwieriger  als  bei  der  Unterscheidung  Fi'ikativ 
gegeniiber  Vokal.  Auch  bei  der  vorliegenden  Klassifikationsaufgabe  liegt  die  Information 
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Abbildung  7.30.;  Typisdies  Leistungsdichtespektruni  des  Fiikatives  /x/.  Aufgrund  der 
riickverlagerten  Engstelle  zwischen  Zungenriicken  und  hinterem  Gau- 
nien  erfahrt  das  rauschartige  Anregungssignal  (Piiktionsgerausch) 
durch  das  Pas.siereii  des  vorderen  Vokaltrakts  eine  vokalische  Farbung.) 


beziiglich  der  Klassenzugehorigkeit  in  der  Abhangigkeit  der  22  Datenvektorelemente  ver- 
borgen. 

Die  Diskriininanzanalyse  ist  das  am  haufigsten  angewandte  Verfahren  der  Stati- 
stik  zur  Losung  derarfciger  Problemstellungen  ({Nor93]).  Wahrend  es  bei  der  2- 
Klasseii-Diskriiniiianzanalyse  moglich  war,  mit  einer  Diskriminanzfunktion  eine  opti- 
male  Klassentrennung  lierbeizufiihren,  werden  bei  der  3-Klassen-Diskriminanzanalyse 
zwei  Diskriminanzfunktionen  benotigt.  Sie  bestelien  aus  denjenigen  Satzen  von  Ko- 
effizienten,  die  nach  Linearkombination  mit  alien  zur  Verfiigung  gestellten  Daten- 
vektoren  einer  Tlainings-Stichprobe  eine  optimale  Klassentrennbarkeit  sicherstellen 
bzw.  eine  Znordnung  mit  minimaler  Fehlklassifikationsrate  gestatten.  Die  MODIAS- 
Diskriminanzfunktionen  bestehen  (wie  auch  die  Datenvektoren)  aus  jeweils  22  Elementen 
Bi .. .  B22  bzw.  Cl . ..  C22  und  einer  additiven  Konstante  Bo  bzw.  Cq. 

Das  Brgebnis  der  Linearkombinationen  beider  Diskriminanzfunktionen  mit  dem  Daten- 
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vektor  cles  j-ten  Segmentes  Sj  ist  das  Diskriminanzscorepaar  (Dlj,D2j)  mit: 

22 

Dlj  =  Bo  +  B\Sj^  +  B^Sj^  +  . . .  +  B22^j22  =  -00  +  ^  Bi^ji  (7.28) 

t=i 

22 

D2j  =  Co  +  CxEj^  +  C2Ej2  +  . . .  +  C22£j22  =  C'o  +  X)  (7.29) 

»=i 

Damit  wird  die  Gesamtinformation  des  urspriinglich  22-elementigen  Datenvektors  £j  des 
j-ten  Elements  auf  ein  Wertepaar  {Dlj,D2j)  abgebildet;  durch  Reduktion  entsteht  aus 
dem  22-dimensionalen  Datenvektor  ein  2-dimensionaler  Merkmalsvektor. 

Das  Diskriminanzscorepaar  wird  fiir  jedes  Signalsegment  j  =  1  :  J  bzw.  jeden  Da¬ 
tenvektor  Sj  der  gesamten  Aufzeichnung  ermittelt.  Werden  alle  Merkmalsvektoren  der 
Tiainings-Stichprobe  iiber  dem  nun  aufgespannten  2-dimensionalen  Merkmalsraum  auf- 
getragen,  entsteht  ein  Scatterplot  mit  3  charakteristischen  Clustern  entsprechend  der 
jeweiligen  Klassenzugehorigkeit  (Abbildung  7.31). 
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Abbildung  7.31.:  Scatterplot  im  2-dimensionalen  Merkmalsraum  mit  typischer  Cluster- 
bildung  entsprechend  den  3  betrachteten  Klassen 
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7. 3, 2.4,  Erkennertraining 

Das  Erkennertraining,  also  die  empirische  Optimierung  des  Mustererkenners  zur  L6- 
sung  der  gestellten  Klassifikationsaufgabe  anhand  einer  hinreichend  grofien  Stichpro- 
be  besteht  bei  der  realisierten  Entwurfsstrategie  in  der  Durchfiihrung  einer  3-Klassen- 
Diskriininanzanalyse  und  damit  der  Gewinnung  zweier  geeigneter  Diskriminanzfunktio- 
nen.  Dabei  ist  fiir  die  Klassifikationsaufgabe 

•  Fiikativ  /$/  gegeniiber  Piikativ  // /  bzw.  Prikativ  /x/ 

nur  ein  einziger  Berechiiungsgang  erforderlich. 


Methodischer  Ansatz:  Die  Ti-ainingsphase  erfordert  eine  Handsegmentierung  jeder 
einzelnen  Aufzeichnung  der  Tiainings-Stichprobe.  Dabei  wird  fiber  visiielle  Prufung 
(Oszillogramin)  und  gleichzeitig  perzeptive  Kontrolle  (Lautsprecher)  fiir  jeden  Piikativ 
jeweils  ein  reprasentatives  Signalsegment  bzw.  dessen  zugehoriger  Datenvektor  extra- 
hiert.  Die  Information  bezfiglich  der  Klassenzugehorigkeit  ist  dabei  bekannt.  Die  Menge 
der  so  entnoinrnenen  Datenvektoren  der  3  vorkommenden  Klassen,  jeweils  versehen 
mit  der  Zusatzinformation  der  Klasse,  bildet  die  Basis  zur  Durchfuhrung  der  Analyse, 
die  iin  AnschluiS  mit  einem  der  etablierten  Statistik-Programme,  hier  SPSS,  erfolgt. 
Durch  die  identische  Bildung  der  Datenvektoren  zu  Kapitel  7.3. 1.3  konnten  die  hier 
relevanten  Datenvektoren  der  Prikative  direkt  fibernommen  werden,  damit  entfiel  ein 
weiterer  Segmentierungsdurchgang.  Die  Menge  der  so  entnommenen  Datenvektoren  der 
drei  Klassen  bilden  die  Basis  zur  Durchffihrung  der  nachfolgenden  Analyse. 

Am  Elide  einer  3--Klassen-Diskriniinanzanalyse  stehen  grundsatzlich  mehrere  Infor- 
mationen  zur  Verffigung,  das  sind 

•  die  beiden  gesuchten  Diskriminanzfunktionen,  die  eine  optimale  Klassentrennbar- 
keit  anhand  des  Diskriminanzscorepaares  (D1,D2)  gestatten, 

•  die  drei  2-dimensionalen  Verteilungen  der  Diskriminanzscorepaare,  die  sich 
durch  Anwendung  der  beiden  Diskriminanzfunktionen  auf  samtliche  Muster  der 
Tl-ainings-Stichprobe  ergeben. 
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•  die  Zentroide  der  drei  so  entstandenen  Veiteilungen,  also  die  klassenweise  berech- 
iieten  Mittelwerte  der  Diskriminanzscorepaare  {D1,D2). 


Vorlaufige  Stichprobe:  Urn  fiir  jedes  der  Eiiizelworter  jeweils  genau  einen  reprasen- 
tativen  Datenvektor  fiir  den  enthaltenen  Frikativ  zu  gewinnen,  war  hier  eine  inanuelle 
Segmentierung  der  Aufzeichnungen  erforderlich.  Waren  die  Diskriniinanzfunktionen  auf 
Basis  der  'Eainings-Stichprobe  zu  diesem  Zeitpunkt  bereits  vorhanden,  lieUe  sich  die 
Segmentierung  komfortabel  in  dem  grafischen  Bewertungseditor  (vgl.  Abbildung  7.6  auf 
Seite  205)  vornehmen,  der  den  zeitlichen  Verlauf  der  Diskriminanzscores  und  des  zeitsyn- 
^  chroneii  Oszillogramms  darstellt  und  damit  bereits  auf  die  Orte  der  Frikative  innerhalb 
des  Sprachsignales  zeigt.  In  der  Phase  des  Erkennertrainings  standen  diese  Diskriminanz- 
Yunktionen  aber  logischerweise  noch  nicht  zur  Verfiigung. 

Daher  wurden  zunachst  Diskriniinanzfunktionen  auf  Basis  einer  eigenen  Stichprobe  be- 
rechnet,  bestehend  aus  1  mannlichen  und  1  weiblichen  Sprecher  (siehe  Tabelle  7.2  auf 
Seite  254)  mit  jeweils  10  Wiederholungen,  um  zumindest  eingeschrankt  die  grafische 
Segmentierungsunterstiitzung  nutzen  zu  konnen.  Die  Ergebnisse  dieser  Voranalyse  sind 
hier  weniger  von  Interesse  und  werden  daher  nicht  weiter  dargestellt.  Zusatzlich  wurde 
innerhalb  der  Editor-Oberflache  eine  Spezialroutine  implementiert,  die 


•  die  Orte  der  Piikative  innerhalb  der  Aufzeichnung  markierte, 

•  eine  leichte  Verschiebbarkeit  dieser  Orte  ermoglichte  mit  paralleler  perzeptiver  Kon- 
trolle, 

•  auf  Wunsch  den  Datenvektor  an  dem  gewahlten  Ort  entnahm  und  automatisch  in 
eine  Datenbank  portierte. 

Auf  diese  Weise  entstanden  fiir  Jeden  der  25  Probanden  (vgl.  Tabelle  7.3  auf  Seite  255) 
jeweils  12  Datenvektoren  pro  Frikativklasse  (insgesamt  waren  36  Worter  zu  sprechen, 
davon  je  12  pro  Frikativtyp,  jedes  Wort  enthalt  dabei  je  einen  Frikativ). 

Tabelle  7.7  listet  samtliche  auf  Basis  der  Trainings-Stichprobe  gem.  Tabelle  7.3  durchge- 
fiihrten  Diskriminanzanalysen  auf  mit  der  jeweils  zur  Verfiigung  stehenden  Anzahl  von 
Datenvektoren  pro  Frikativklasse. 
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Trainings-Stichprobe:  Die  Gewinnung  von  Trainingsdaten  erfoigte  an  sprechgesunden 
Probanden  iin  Rahmen  einer  Erhebung  an  der  Universitat  der  Bundeswehr  Munchen  und 
der  Entwicklungsgrnppe  Klinische  Neuropsychologie  Miinchen-Bogenhausen.  Jeder  Pro- 
band  liatte  dabei  die  Aufgabe,  samtliche  Einzelwortaufzeichnungen  der  Patientensitzung 
des  Moduls  FRIKATIVARTIKULATION  in  gewohnter  Geschwindigkeit  und  Stimmlage 
aufzusprechen.  Auf  diese  Weise  entstanden  fiir  jeden  Probanden  Aufzeichnungen  von  ins- 
gesaint  36  Einzelwortern,  davon  jeweils  12  fiir  die  unterschiedenen  Frikativklassen  /s/, 
// /  /c/ 

Vor  jeder  Aufzeichnung  wurden  auEerdein  folgende  Zusatzinforniationen  erfaRt; 


•  Alter  [Jahre] 

•  Geschlecht  [tn/w] 

•  Rancher  [Ja/Nein] 


Uni  eventuelle  Verfalschungen  der  Statistik  zu  vermeiden,  wurde  vorsorglich  jeder  Pro¬ 
band  befragt,  ob  nach  seinein  eigenen,  subjektiven  Empfinden  eine  (wenn  auch  noch  so 
gering  ausgepragte)  Sprechstorung  bezogen  auf  Stimme  und/oder  Artikulation  vorliegt. 
Dies  wurde  von  keinem  der  Probanden  bejaht. 

Die  verwendete  Tiainings-Stichprobe  ist  identisch  zur  der  bereits  in  Tabelle  7.3  auf  Seite 
255  dargesteilten  Stichprobe.  Die  im  Laufe  der  Entwicklung  zahlreich  durchgefuhrten  Dis- 
kriminanzanalysen  zeigten  hierbei,  dali  durch  Aufteilung  der  Trainings-Stichprobe  nach 
dem  Geschlecht  wesentlich  bessere  Klassifikationsergebnisse  erreicht  werd^n  konnten.  ■* 


Ergebnisse  der  Diskriminanzanalysen:  Die  erforderlichen  3-Klassen- 
Diskriniinanzanalysen  gem.  Tabelle  7.7  wurden  mit  dem  Statistik-Programmpaket 
SPSS  am  Leibniz-Rechenzentrum  der  Technischen  Universitat  Munchen  durchgefiihrt. 
Dabei  resultierten  pro  Analyse  jeweils  die  beiden  in  Tabelle  7.8  und  7.9  aufgeliste- 
ten  Diskriminanzfunktionen  bzw.  deren  KoefRzienten  So . . .  B22  bzw.  Cq...C22-  Die 
zugehorigen  Verteilungsmittelwerte  sind  in  Tabelle  7.10  gesondert  zusammengestellt. 
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7.3.  Technische  Realisierung:  Entwickelte  Vei-faijren  and  Algorithinen 


7. 3. 2. 5.  Klassifikation 

Aufgabe  der  Klassifikation  ist  es  nun,  nach  Anwendung  beider  Diskriminanzfunktionen 
auf  ein  neues,  unbekanntes  Muster  einer  Teststichprobe  von  dein  resultierenden  Diskri- 
minanzscorepaar  (PI,  £>2)  nioglicbst  sicher  auf  die  Klassenzugehorigkeit  zur  Klasse  k  zu 
‘schlieSen. 

■'Die  einfachste  denkbare  Art  einer  Klassifikationsstrategie  ware  die  Zuordnung  zu  der 
Klasse,  deren  Zentroid  innerhalb  der  Merkmalsebene  am  nachsten  liegt  (Minimuin- 
Distance-Klassifikator  gem.  Abbildung  7.32), 


Abbildung  7.32.:  Der  Minimum-Distance-Klassifikator  witrde  die  Zuordnung  des  Testmu- 
sters  innerhalb  der  Merkmalsebene  zu  der  Klasse  mit  dem  nachstgelege- 
nen  Klassenzentroid  treffen.  Dabei  bliebe  die  Verteilung  der  Merkmale 
innerhalb  der  Klassen  unberiicksichtigt, 

Diese  Art  der  Entscheidung  beriicksichtigt  aber  nicht  die  realen  klassenspezifischen 
Verteilungen  der  Scorepaare  um  ihren  Klassenschwerpunkt.  Es  ist  leicht  vorstellbar,  dafi 
die  Zuordnung  zu  einer  bezogen  auf  den  Klassenzentroid  zwar  weiter  entfernten,  aber 
dafur  starker  streuenden  Klasse  durchaus  sinnvoll  sein  kdnnte,  hier  aber  unberiicksichtigt 
bliebe. 

Da  sich  jeder  Merkmalsvektor  aus  der  gewichteten  Summation  vieler  Einzelelemente 
zusammensetzt,  die  ihrerseits  jeweils  einer  spezifischen  Streuung  unterliegen,  erscheint 
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7.  ReaJisienwg  des  Moduls  FRIKATIVARTIKULATION 

hier  fur  jecle  Klasse  die  Annalime  einer  2-dimensional  gauRverteilten  Wahrscheinlich- 
keitsfunktion  sinnvoll. 

Die  multivariate  Normalverteilung  einer  Klasse  k  ist  eine  Funktion  der  vektoriel- 
len  Zufallsgrofee  D  =  (£)1,Z?2);  ihre  Form  wird  bestimmt  durch  den  klassenspezifischen 
Zentroidvektor  mjt  =  (7nl,7n2)  und  die  klassenspezifische  Kovarianzmatrix  Cfc. 

Bei  einem  3-I<Iassenproblem  bedeutet  dies: 

pl,D\k)  =  (7.30) 

y(27r)3|Cjt| 

mit; 

Ck  =  {D-  77x,)(D  -  m,y  \Ck\  =  det{C^,)  (7.31) 

Dabei  gibt  der  hochgestellte  Strich  an,  dalS  es  sich  hier  um  einen  Zeilenvektor  handeln 
mufi.  Vektoren  ohne  diese  Markierung  sind  Spaltenvektoren. 

Da  die  Variable  D  iiur  im  Exponenten  vorkommt,  gilt  fiir  die  Orte  gleicher  bedingter 
Walirscheiulichkeitsdichte  (d.h.  p{D\k)  =  co7ist)  auch: 

(D  -  rtikYC^^iD  -  mfc)  =  const  =  q  (7.32) 

Dieser  Wert  q  stellt  den  Mahalanobis-Abstand  dar.  Damit  sind  die  Orte  gleicher 
Waluscheinlichkeitsdichte  zugleich  Orte  gleichen  Mahalanobis-Abstands.  Sie  bilden  kon- 
zentrische  Ellipsen  bzw,  Ellipsoide,  deren  Hauptachsen  in  Richtung  der  Eigenvektorep 
der  zugehorigen  Kovarianzmatrix  Ck  verlaufen.  Entlang  der  Ellipse  fiir  Mahalanobis- 
Abstand  1  ist  die  bedingte  Wahrscheinlichkeit  auf  1/v/e  abgefallen  (1-Sigma- Ellipse). 

MODIAS  stellt  die  aus  der  Trainings-Stichprobe  ableitbaren  l-cr-EIlipsen,  2-a-Ellipsen 
sowie  die  3  Klassenschwerpunkte  77^l . . .  m3  in  der  2-dimensionalen  Merkmalsebene  dar 
(Abbildung  7.33).  Zusatzlich  werden  in  diese  Ebene  die  resultierenden  Scorepaare  fiir 
die  realisierten  Fiikative  des  gerade  untersuchten  Patienten  projiziert. 

Die  Zuordnung  des  Mustererkenners  wird  zu  der  Klasse  getroffen,  zu  der  das  Muster 
einen  minimalen  Mahalanobis-Abstand  aufweist. 

7.3.3.  Auditive  Frikativkiassifikation  durch  Expertenurteile 

Die  auditive  Befundimg  durch  geschulte  Experten  wurde  in  dem  MODIAS-Modul  FRI¬ 
KATIVARTIKULATION  derart  realisiert,  daiJ  jedes  aufgezeichnete  Einzelwort  perzeptiv 
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7.3.  Technische  Realisierung:  Entwickelte  Verfahven  und  Algonthinen 


ib. 


-4h 

1 _ 1 _ 1 _ I _ I _ I _ I _ I _ I _ L_. 

-4  -3  -2  -1  0  1  2  3  4 

Score  D1 

Abbildung  7.33.:  MODIAS-Darstellung  der  Merkmalsebene  mit  l-a  und  2-cT-Ellipsen  der 
Trainings-Stichprobe.  Zusatzlich  slnd  die  Muster  projizlert,  die  sich  aus 
der  Frikativrealisierung  des  gerade  betrachteten  Patienten  ergeben  {hier 
fiir  den  Frikativ  /s/).  Alle  (Test-)Muster  liegen  hier  aufierhalb  der  2-cr- 
Ellipse  der  Normgruppe. 

dargeboten  wird.  Die  Wiedergabe  jedes  Wortes  kann  dabei  nur  einmal  gestartet  werden; 
unniittelbar  danach  entscheidet  sich  der  Untersucher  je  nach  perzeptiver  Wahrnehmung 
fiir  einen  der  3  Prikativtypen.  Die  Reihenfolge  der  Wiedergabe  bezogen  auf  Wort-  bzw. 
FVikativtypen  erfolgt  dabei  randomisiert. 
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7.  ReBlisierung  des  Moduls  FRIKATIVARTIKULATION 


Bark-Band  Nr. 

Untere  Grenzfrequenz[Hz] 

Obere  Grenzfrequenz  [Hz] 

1 

0 

101 

2 

101 

204 

3 

204 

309 

4 

309 

417 

5 

417 

531 

6 

531 

651 

7 

651 

781 

8 

781 

922 

9 

922 

1079 

10 

1079 

1255 

11 

1255 

1457 

12 

1457 

1692 

13 

1692 

1971 

14 

1971 

2309 

15 

2309 

2726 

16 

2726 

3247 

17 

3247 

3903 

18 

3903 

4729 

19 

4729 

5758 

20 

5758 

7030 

21 

7030 

8605 

22 

8605 

10583 

Tabelle  7.1.:  Obere.  und  untere  Fiequenzgrenzen  der  22  gehorrichtigen  Bark-Bander. 


Gruppe 

Geschlecht 

Anzahl 

Alter 

Rancher 

Wiederholungen 

1 

mannlicli 

1 

10 

2 

weiblich 

1 

28 

10 

Tabelle  7.2.:  Zusaminensetzung  der  vor  der  eigentlichen  Tiainingsphase  gewonnenen 
Stichprobe  zur  Bestimmimg  vorlaufiger  Diskriminanzfunktionen. 
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7.3.  Teclmiscbe  ReaUsierung:  Entwickelte  Verfabren  und  Algoritbmen 


Alter  [Median  (Min/Max)] 

davon  Rancher 

38  (24/73) 

1 

2 

11 

30  (20/62) 

1 

Tabelle  7.3.:  Zusammensetzung  der  Trainings-Stichprobe  sprechgesuiider  Probanden. 

Fur  die  Gruppe  der  mannlichen  und  der  weibliclien  Probanden  wurde  jeweils 
eine  eigene  Diskriminanzanalyse  berechnet,  um  Einfiusse  der  Sprechstimm- 
lage  zu  eliminieren. 


Analyse 

Gruppe 

Aufgabe 

Datenvektoren  FVikativ 

Datenvektoren  Vokal 

1 

1  (mannlich) 

/s/  <4  /a/ 

168 

168 

2 

2  (weiblich) 

A/  ^  A/ 

132 

132 

3 

1  (mannlich) 

///  «  A/ 

168 

168 

4 

2  (weiblich) 

/[/«/V 

132 

132 

5 

1  (mannlich) 

A/  ^  A/  1 

168 

168 

■6 

2  (weiblich) 

A/  <4  /a/ 

132 

132 

Tabelle  7.4.:  tjbersicht  iiber  die  durcligefuhrten  2-Klassen-Diskriminanzanalysen  und  die 
jeweilige  Anzahl  von  Trainings-Datenvektoren  im  Rahmen  des  Erkenner- 
trainings  an  25  sprechgesunden  Probanden. 
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7.  Realisiening  des  Modiils  FRIKATIVARTIKULATION 


KoefRzieiit 

Analyse  1 

Analyse  2 

Analyse  3 

Analyse  4 

Analyse  5 

Analyse  6 

Bo 

3.83 

4.37 

4.27 

Bi 

0 

QHHIH 

0 

0 

mHH 

0 

B2 

0 

0 

0 

Bo 

mi 

mm 

-0.08 

Bi 

EHi 

-0.67 

0 

Bo 

BBHl 

-0.17 

-0.24 

0 

Be 

-0.14 

-0.10 

-0.17 

-0.09 

0 

Bj 

EEEH 

-0.15 

-0.13 

-0.11 

-0.13  . 

[IBHH 

Be 

EBH 

-0.14 

-0.12 

-0.11 

-0.09 

BBHIi 

Bo 

-0.12 

-0.15 

mm 

DEBli 

-0.06 

bbh 

Bio 

-0.11 

-0.15 

mm 

QIQIIIII 

-0.06 

Bn 

-0.13 

-0.13 

-0.12 

-0.13 

0 

-0.02 

Bn 

-0.13 

-0.15 

-0.21 

-0.12 

-0.03 

-0.04 

0.06 

-0.12 

0 

0 

lomiiiiiiii 

0.03 

0 

0 

0 

-0.09 

0 

0.02 

0.11 

0 

0 

B\e 

0.04 

0 

0 

Bn 

0 

0 

0.03 

0.03 

0 

0 

0 

0,07 

0.06 

0.12 

0.03 

0 

0 

0 

0 

0 

B-io 

0 

0 

0 

0 

0 

0 

Boi 

0 

0 

0 

0 

0 

0 

B22 

0 

0 

0 

0 

0 

0 

Tabeile  7.5.;  Diskriminaiizfunktionen  der  durchgefiihrten  2-Klassen- 

Diskriiiiinanzanalysen  im  Rahmen  des  Erkennertrainings.  Die  Analysen  1-6 
sind  ill  Tabeile  7.4  spezifiziert. 
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7.3.  Tbchnische  Realisierung:  Entwickelte  Verfabren  uiid  Algoritbmen 


Analyse 

Verteilungsmittelwert  Klasse  Frikativ 

Verteilungsmittelwert  Klasse  Vokal 

1 

5.95 

-5.95 

2 

-6.70 

3 

1  6.63 

-6.63 

4 

-7.14 

3.07 

-3.07 

6 

3.31 

-3.31 

Tabelle  7.6.;  Verteihingsinittelwerte  der  Diskriniinanzscores  fiir  die  durchgefiihrten  2- 
Klassen-Diskriminanzanalysen  im  Rahmen  des  Erkeimertrainings.  Sie  ent- 
stehen,  wenn  samtiiche  Datenvektoren  der  Klasse  Rikativ  oder  der  Klasse 
Vokal  (vgl.  Tabelle  7.4)  mit  der  jeweiligen  DiskriminanzfunkUon  aus  Tabelle 
7.5  linear  kombiniert  warden  und  iiber  die  so  erhaltenen  Diskriniinanzscores 
gemittelt  wird. 


Analyse 

1  Gruppe 

Datenvekt.  /$/ 

Datenvekt.  /// 

Datenvekt.  /x/ 

1 

1  (mannlich) 

168 

168 

168 

2 

2  (weiblich) 

132 

132 

132 

Tabelle  7.7.;  Obersicht  uber  die  durchgefiihrten  3-Klassen-Diskriniinanzanalysen  im  Rah' 
men  des  Erkeimertrainings. 
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7.  Realisievung  des  Moduls  FRIKATIVARTIKULATION 


Tabelle  7.8.:  Erste  Diskriminanzfunktion  B0...B22  der  durchgefiihrten  3-Klassen 
Diskriminanzaiialysen  im  Rahmen  des  Erkennertrainings. 
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7.3.  Technische  Realisierung:  Entwickelte  Verfahren  und  Algorithmen 


KoefRzient 

Analyse  1  Analyse  2 

Co 

-0.96 

-1.74 

Cl 

0 

0 

C2 

0 

0 

C3 

0.13 

0.07 

C4 

0 

0 

C5 

0 

0 

Ce 

0.2 

0 

C7 

0.13 

0,56 

Cg 

0 

0 

C9 

0.09 

0.25 

Cio 

0.07 

0.16 

Cii 

0.04 

0.04 

<^12 

0.06 

0.08 

Ci3 

0.05 

0.08 

Ci4 

0.04 

0.02 

Ci5 

0.01 

0 

C16 

0.02 

0.02 

Cl  7 

0.03 

0.01 

Cis 

0 

0.04 

Ci9 

-0.02 

0.03 

C20 

-0.04 

-0.05 

C2I 

0 

0 

C22 

0 

0 

Tabelle  7.9.:  Zweite  Diskriminanzfunktion  Co  . . .  C22  der  durchgefiihrten  3-Klassen- 
Diskriminanzanalysen  im  Rahinen  des  Erkennertrainings. 
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7,  Reahsierung  des  Moduls  FRIKATIVARTIKULATION 


Analyse 

Klassenzentroid  /s/ 

Klassenzentroid  // / 

Klassenzentroid  /x/ 

1 

-1.36,-2.16  ; 

3,02  ,  0.14 

-1.66  ,  2.02 

2 

-1.86  ,  -2,16 

3.77  ,  0.02 

-1.91  ,  2.14 

Tabelle  7.10.:  Diskriminanzscore-Verteilungsmittelwerte  (Zentroide)  der  durcligefiihrten 
3-KIassen-Diskriminanzanalysen  im  Rahmen  des  Erkennertrainings.  Sie 
entstehen,  weiin  samtliche  Datenvektoren  der  3  Prikativkleissen  (vgl.  Ta¬ 
belle  7.7)  nacheinander  mit  den  jeweiligen  Diskriminanzfunktionen  aus  Ta¬ 
belle  7.8  bzw.  7.9  linear  konibinlert  werden  und  iiber  die  so  erhaltenen 
Diskriminanzscorepaare  gemittelt  wird. 
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Zusammenfassung 


Ungefahr  2  Prozent  der  Bevolkerung  der  westlichen  Welt  leiden  an  den  Nachwirkun- 
gen  einer  Hirnschadigung.  In  vielen  Fallen  sind  mit  einer  solchen  Scliadigung  neurogene 
Sprechstdrungen  verbunden,  die  alle  funktionellen  Strukturen  des  Sprechvorganges  wie 
Sprechatmung,  Stimme  und  Artikulation  betreffen  konnen. 

Fine  eingehende  Analyse  der  Arbeitsniethoden  in  der  klinischen  Diagnostik  neurogener 
Sprecbstorungen  hat  gezeigt,  dafi  hier  nodi  vorwiegend  auditive  Verfahren  zum  Ein- 
satz  kommen,  d.li.,  ein  geschulter  Horer  beurteilt  einen  Patienten  nadi  seinem  person- 
lichen  Hbreindruck.  Solche  Horersitzungen  sind  zeitintensiv  und  subjektiv.  Akustisch- 
phonetische  Verfahren,  also  der  unterstiitzende  Einsatz  technischer  Systeine,  tragen  hier 
zu  einer  Objektivierung  des  klinischen  Bildes  bei.  Obwohl  hierzu  im  Prinzip  bereits  die 
notwendigen  Methoden  und  Verfahren  verfiigbar  sind  und  eine  breite  klinische  Nutzung 
befiirwortet  und  auch  angestrebt  wird,  finden  sich  bis  heute  nicht  einmal  die  einfachsten 
akustischen  Parameter  routineinaftig  in  klinischen  Befunden  und  Berichten. 

Die  Frage  nach  der  Ursadie  dieser  Situation  erbrachte  folgende  Erkenntnisse: 

•  Technische  Diagnostik-Systeme  sind  oft  zu  kostenintensiv,  geniessen  am  vergleichs- 
weise  geringen  Budget  neuropsychologischer  Einrichtungen. 

•  Sie  enthalten  haufig  zu  viele  Freiheitsgrade  und  liefern  eine  schwer  iiberschaubare 
Anzahl  von  Parametern  mit  teilweise  geringer  diagnostischer  Relevanz.  Zur  Erzeu- 
gung  der  Parameter  sind  haufig  zeitaufwendige  Vorverarbeitungen  erforderlich. 

•  Sie  enthalten  keine  standardisierten  und  vorgefertigten  Untersuchungsprotokolle. 

•  Die  Ergebnisse  sind  haufig  nicht  transparent  genug  und  fiir  einen  wenig  technisch 
versierten  Anwender  nur  schwer  interpretierbar. 
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Zu.sainnieii/asstiJig' 


Hier  klafft  eine  deutliche  Liicke  zwischen  dem  technisch  Machbaren  und  dein  diagno- 
stisch  Sinnvolleii.  Aus  dieser  konkreten  Problemstellung  lieraus  entstand  ini  Rahinen 
der  vorliegenden  Arbeit  das  Modulare  Diagnostik-System  fiir  Sprechstorungen 
(MODI AS).  Dieses  System  ist  das  Resiiltat  einer  liber  Sjahrigen  direkten  und  frucht- 
baren  Kooperation  des  Instituts  fiir  Nachrichtentechnik  der  Universitat  der  Bundeswehr 
Miinchen  mit  der  Eiitwicklungsgruppe  klinische  Neuropsychologie  des  Staxltischen 
Krankenhauses  Munchen-Bogenhausen.  Durch  das  interdisziplinare  Zusanimenwirken 
neuropsycliologischer  Expertise  init  ingenieurwissenschaftlicher  Methodik  konnten 
Synergieeffekte  gewinnbrlngend  genutzt  werden,  um  die  komplexe  Aufgabenstellung  mit 
der  Vielzahl  involvierter  Fachdisziplinen  wie  der  Neuropsychologie,  Neurolinguistik  und 
Phonetik  auf  der  Auwenderseite  sowie  der  Elektrotechnik  und  Informatik  auf  der  Ent- 
wicklerseite  entstehen  zu  lassen.  Die  technische  Lbsung  der  gestellten  ALufgaben  streifte 
dabei  weite  Gebiete  der  Digitalen  Sigualverarbeituug,  Biosignalverarbeitung 
und  Psychoakustik  bis  liin  zur  Mustererkennung  und  der  Klinstlichen  Intelligenz. 

Die  Erfahrungen  mit  dem  System  TUS  und  dem  computerunterstiitzten  Experi- 
mentiersystem  PhonX  -  beide  Ergebnisse  friiherer  Kooperationen  der  beiden  genannten 
Institutionen  -  gaben  dabei  wertvolle  Impulse  fur  den  gesamten  EntwicklungsprozelS. 
Wahrend  das  TUS-System  zur  automatisierten  Prufung  des  Teilaspekts  Verstandlichkeit 
nach  dem  sogenannten  Miincher  Verstdndlichkeitsprofil  dient  ((Ahr94],  siehe  erganzend 
auch  [Fin90j),  deckt  das  System  PhonX  Teilaspekte  der  Diagnose  und  Therapie  von 
zentralen  Stbrungen  der  Produktion  (auf  der  lioheren  Ebene  der  Sprechplanung)  und 
des  Verstehens  gesprochener  Spraclie  ab  {[Tei95]).  Beide  Systeme  sind  heute  im  Einsatz, 
daher  wurdeu  schon  zu  Beginn  der  hier  vorgestellten  Entvi'icklung  Datenschnittstellen 
geschaffen  und  damit  die  Kompatibilitat  hergestellt. 

Mit  MODI  AS  ist  es  jetzt  gelungen,  dem  Diagnostiker  dariiberhinaus  erstmals  ein 
unifassendes  Instrument  zur  Stanclarddiagiiostik  neurogener  Sprechstorungen 
anhand  akustischer  Analysen  des  Sprachsignals  und  zur  Befunderstellung  anhand 
akustischer  Parameter  an  die  Hand  zu  geben.  Hierbei  finden  neueste  Methoden 
der  Digitalen  Signalverarbeitung  Anwendung.  Die  folgenden  Leistungsmerkmale  qua- 
lifizieren  MODIAS  in  herausrageiider  Weise  fur  einen  kllnlschen  Einsatz  in  der 
Sprechstbrungsdiagnostik: 

•  MODIAS  liefert  nur  klinisch  relevante  Parameter,  die  geeignet  sind,  valide  Aussagen 
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iiber  die  wichtigsten  Aspekte  wie  Artikulation,  Stiinme  und  Piosodie  zu  treffen. 

•  MODIAS  integriert  alle  wichtigen  Aspekte  einer  kliiiischen  Standarddiagnostik  von 
der  Prasentatioii  des  Stimulusniaterials  iiber  die  Sprachaufzeichimng  mit  anschlie- 
Keuder  Berechnung  akustischer  Parameter  bis  hin  zur  Ergebnisprasentation. 

•  Alle  akustischen  Parameter  sind  technisch  beziiglich  Stabilitat  und  Exaktheit  op- 
timiert.  Samtliche  Bereclmungen  erfordern  dabei  eine  nur  minimale  Benutzerinter- 
aktion. 

•  Ergebnisse  werden  klar  und  iibersichtlich  pr^entiert;  sie  sind  leicht  interpretierbar 
und  direkt  in  klinische  Berichte  und  Befunde  portierbar. 

MODIAS  ist  ein  PC-gestiitztes  System,  aufbauend  auf  dem  mathematischen  Interpreter 
MATLAB,  Es  besteht  aus  4  unabhangigen  Modulen. 

Im  Modul  Stimme  und  Vokalartikulation  wild  der  Patient  aufgefordert,  die 
vier  Vokale  /i/, /?//,/«/  und  /a/  iiber  mehrere  Sekunden  in  normaler  Stimmlage 
und  Lautstarke  anzuhalten.  MODIAS  stellt  dem  Diagnostiker  akustische  Parameter 
zur  Verfiigung,  die  geeignete  Mafie  fiir  die  Stellung  der  relevanten  Artikulatoren 
wie  Lippen,  Zunge,  Kiefer  und  Gaumensegel  darstellen  und  dsmit  AufschlulS  iiber 
die  Fahigkeit  des  Patienten  zu  einer  kontrastreichen  Vokalartikulation  geben.  Die 
Analyse  der  Stimmbandschwingung  erlaubt  zusatzlich  die  Beurteilung  von  Qualitat 
Und  Stabilitat  der  Stimmgebung.  Die  technische  Realisierung  des  Anteils  Stimme 
erforderte  die  Entwicklung  eines  Pitch-TVacking-Verfahrens,  das  im  Zeitbereich  jede 
einzelne  Stimmbandschwingung  beziiglich  ihrer  Periodendauer  bzw.  Fi-equenz  vermifet. 
Die  Stabilitat  der  so  erhaltenen  Tonhohenverlaufe  wird  nach  einer  neuen  Methode 
analysiert,  die  eine  differenzierte  Betrachtung  nach  verschiedenen  Arten  von  Insta- 
bilitat  (Pitch-Trend,  Pitch-Variabilitat  und  Jitter)  gestattet.  Zur  Beurteilung  der 
Stimmqualitat  wurde  unter  anderem  der  erst  vor  kurzem  vorgestellte  CPPS-Parameter 
(Cepstral  Peak  Prominence  Smoothed)  als  Behauchtheits-Pradiktor  implementiert, 
der  hier  zur  Beurteilung  von  intermittierenden  Storungen  erstmals  auch  in  seinem 
zeitlichen  Verlauf  verfolgt  werden  kann.  Die  Validitat  der  beiden  StimmqualitatsmaiJe 
fiir  Rauhigkeit  (Jitter)  und  Behauchtheit  (CPPS)  wurde  anhand  synthetischer  Stimmen 
iiberpriift.  Hierzu  war  die  Entwicklung  eines  Formant- Vocoders  und  die  Simulation 
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der  Stimnibandschwingung  mit  beiden  Stimmstbrungsmerkinalen  erforderlich.  Die 
technisclie  Realisierung  des  Antells  Vokalartikulation  fiihrte  zur  Modellierung  des 
menschlichen  Vokaltrakts  mit  seliien  Sprechwerkzeugen  durch  ein  Allpol-Filter  (Auto- 
regresslves  Filterinodell),  desseri  konjugiert  komplexe  Polpaare  der  korrespondierenden 
Systemfunktioii  iiber  das  Verfahren  der  Linearen  Pradiktion  nach  der  Autokorrelations- 
metliode  unter  Zuhilfenahme  der  Levinson-Durbin-Rekursion  bestimmt  werden.  Bedingt 
durch  die  Zeitvarianz  des  Sprachsignals  werden  diese  Polpaare  (Modellparameter)  100 
mal  pro  Sekunde  neu  bereclmet.  Der  Ruckschluft  von  der  Lage  der  Polpaare  in  der 
z-Ebene  auf  die  Frequenzlage  der  gesuchten  charakteristischen  Oberhohungen  in  den 
korrespondierenden  Fourier-tjbertragungsfunktionen  {Formanten)  erfolgt  hier  nach 
einem  neuen  nichtlineareir  Berechuungsverfahren.  Dabei  konnte  gezeigt  werden,  dafi  das 
bisher  bekannte  lineare  Berechnungsverfahren  in  ungiinstigen  Fallen  zu  inakzeptablen 
Fehlern  in  der  Formantschatzung  fiihren  kann.  Zusatzlich  konnten  dadurch  kritische 
Pol-Lagen  der  z-Ebene  angegeben  werden,  die  zu  extremen  Varianzen  der  abgeleiteten 
Fonnantfrequenzen  fiihren  iniissen  (Ursache  von  Spurious  Peaks  und  Drop-Outs),  und 
uberkritische  Bereiche,  in  denen  auch  konjugiert  komplexe  Polpaare  nicht  resonanzfahig 
sind  {Spectral  Shaping  Poles).  MODI  AS  detektiert  und  unterdriickt  kritische  und 
iiberkritische  Polpaare  und  liefert  dadurch  besonders  robuste  Form  ant  verlaufe.  Da 
bei  sprechgestorten  Patienen  jegliche  Normwerte  fiir  Formantlagen  fehlen,  kann  der 
zusatzlich  entwickelte  Formant-Tracking-Algorithmus  im  Falle  unplausibler  Daten 
manuell  beeinfluSt  werden. 

Das  Modul  Satzproduktioii  widmet  sich  den  Veranderungeii  von  Tempo,  Rhyth- 
mus  und  RedefluK.  Hier  wurde  eine  PC-gesteuerte  Methode  zur  akustischen  Analyse  des 
Zeitmusters  der  Satzproduktioii  entwickelt.  Der  Patient  hat  die  Aufgabe,  ausgewahlte 
Testsatze  nachzusprechen,  die  sich  bei  festem  Tragersatz  in  nur  einem  Zielwort  variierter 
Komplexitat  unterscheiden  (z.B,  Ute  kann  die  Trompete  bekommen)  oder  bei  denen 
zusatzlich  auch  der  Tragersatz  variiert  wurde.  Das  Verfahren  erlaubt  gleichzeitig  eine 
auditive  Analyse  nach  phonetischen  und  phonematischen  Fehlern.  Es  eignet  sich  damit 
zur  Differenzierung  unterschiedlicher  Stdrungsmuster  und  zur  Analyse  der  Faktoren,  die 
das  Auftreten  von  Unfliissigkeiten  beeinflussen.  Zur  technischen  Realisierung  wurde  hier 
das  von  Ruske  und  Beham  vorgeschlagene  vereinfachte  Funktionsmodell  der  Lautheit 
implementiert.  Es  beriicksichtigt  die  Vorgange  im  menschlichen  Gehor  durch  Simulation 
der  Erregungsverteilung  entlang  der  Basilarmembran  in  Abhangigkeit  des  anliegenden 
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Schalldruckverlaufs.  Dutch  den  Ubergang  von  physikalischen  MeEgrofien  auf  psychoaku- 
Istische  EmpfindungsgroEen  wird  dem  anschlieEenden  Silbendetektionsalgorithmus  die 
gleiche  Grundlage  zur  Verfiigung  gestellt,  die  auch  der  Mensch  zur  Auflosung  des 
Gesprochenen  in  einzelne  Silben  heranzieht.  Zur  praziseren  Detektion  von  Silbengrenzen 
wurde  zusatzlich  ein  Verfahren  entwickelt,  mit  dem  die  Rausch-  und  Brummstorungen 
innerhalb  des  Aufzeichnungssystems  PC/Soundkarte  nach  Methoden  der  statistischen 
Signaltheorie  analysiert  und  entsprechend  berlicksichtigt  werden  konnen. 

X)as  Modul  Schnelle  Silbenwiederholungen  gestattet  die  akustische  Analyse 
der  Fahigkeit  des  Patienten  zu  schnellen  Silbenwiederholungen  (Diadochokinese). 
Hierbei  sind  Silbenfolgen,  wie  z.B.  babababa  oder  danadana^  so  schnell  und  so  lange  wie 
moglich  zu  realisieren.  Von  Interesse  sind  hier  besonders  Tempoweclisel  sowie  dysrhyth- 
mische  Tonhohe-  und  Lautstarkeschwankungen.  Technisch  konnten  hier  Methoden  des 
Moduls  Satzproduktion  ubernommen  werden,  erweitert  um  neue  akustische  Parameter, 
die  die  Regularitat  der  Silbenproduktion  und  deren  Storungen  difFerenziert  beschreiben. 

Das  Modul  Frikativartikulation  widmet  sich  der  akustischen  Analyse  von  stimm- 
losen  Zischlauten  (FVikative).  Der  Patient  spricht  ausgewahlte  Einzelwort-Tripel  wie 
z.B.  lassen,  Laschen^  lachen  nach.  Von  Interesse  ist  hier  einerseits  die  Fahigkeit  zur 
Kontrastierung  der  eingebetteten  Frikative  gegenuber  dem  jeweils  vorangehenden 
Vokal  /a/  (Diskrimination)  sowie  zur  Unterscheidung  der  3  verschiedenen  Fiikative 
(Differenzierung).  Technisch  war  hierzu  der  Entwurf  und  die  Realisierung  von  insgesamt 
8  verschiedenen  Mustererkennern  erforderlich,  die  jeweils  an  einer  hinreichend  groEen 
Stichprobe  sprechgesunder  Probanden  trainiert  wurden.  Ein  neues  Verfahren  der 
Merkmalsextraktion,  Merkmalsreduktion  und  der  Normierung  ermoglicht  es  hierbei, 
alle  relevanten  Laute  aussteuerungs-  und  intensitatsunabhangig  {d.h.  unabhangig  vom 
Aufzeichnungssystem  und  von  der  Stimme)  ausschlieElich  anhand  ihrer  spektralen 
Verteilungen  zu  klassifizieren.  Fur  die  Komponente  Diskrimination  wurde  ein  Verfahren 
entwickelt,  mit  dem  die  Qualitat  der  Artikulation  anhand  der  Zugehorigkeitswahrschein- 
lichkeit  zu  einer  der  beiden  Lautklassen  beurteilt  werden  kann  (Bayes-Klassifikator). 
Hierzu  wurden  die  klassenspezifischen  Merkmalsverteilungen  dutch  1-dimensional 
gauEverteilte  Wahrscheinlichkeitsdichtefunktionen  approximiert  und  die  statistischen 
RiickschluEwahrscheinlichkeiten  auf  die  jeweilige  Klasse  herangezogen.  Fiir  die  Kompo¬ 
nente  Differenzierung  wurde  ein  Mustererkenner  realisiert,  dessen  Fehlklassifikationsrate 
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als  akiistischer  Pradiktor  zur  Beurteilung  der  Prikativunterscheidung  dient.  Als  Klas- 
sifikationsstrategie  wurde  hier  eine  Mahalanobis-Abstandsklassifikation  gewahlt,  die 
sich  unter  anderem  einer  Apj^roximation  der  klassenepezifischen  Merkmalsverteilungen 
durcli  2-dimensional  gauftverteilte  Wahrscheinlichkeitsdichtefunktionen  bedient.  Zu- 
safczlich  wurde  eine  auditive  Entscheidungsinstanz  implementiert,  urn  die  auf  der  Basis 
akustischer  Parameter  getrofFene  Entscheidung  des  Mustererkenners  mit  der  anhand  des 
Horeindrucks  getrofFenen  Entscheidung  des  Menschen  vergleichen  zu  konnen. 

Die  Bntwicklung  des  MODIAS-Systems  war  von  Anfang  an  gepragt  von  einem 
kontlnuierlichen  Dialog  mit  dem  kiinischen  Anwender  (Mediziner  bzw.  Therapeu- 
ten),  der  zu  einem  iterativen  Optimierungsprozefi  fuhrte.  Die  kiinischen  Erfahrungen 
resultierten  dabei  in  schrittweisen  Anpassungen  von  Algorithmen  und  Oberflachen; 
in  Einzeifallen  muRten  Teilentwicklungen  auch  abgebrochen  und  mit  vollig  neuen 
Losungsansatzen  fortgesetzt  werden.  Dabei  warden  bis  heute  mehr  als  500  Menschen 
untersucht. 

MODIAS  wurde  bereits  vor  der  VerdfFentlichung  dieser  Arbeit  auF  Fachkongressen 
in  Deutschland,  England,  den  Niederlanden,  Osterreich  und  Italien  mit  grower  Resonanz 
vorgestellt.  Dabei  konnten  zahlreiche  Kontakte  fiir  Kooperationsprojekte  gekniipft 
werden,  wie  z.B.  zur  UniversitStsklinik  Heidelberg  im  Rahmen  eines  experi- 
mentellen  Hirnforschungsprojektes.  Hier  soli  MODIAS  fiir  eine  Patientengruppe  mit 
schwerem  Parkinsonsyndrom  eingesetzt  werden,  urn  die  durch  elektrische  Stimulation 
der  Stammganglien  bewirkte  Veranderung  des  Sprechstorungsgrades  zu  dokumentieren. 
Die  Forscher  erhofFen  sich  durch  den  Einsatz  des  MODIAS-Systems  als  Instrument 
der  experirnentellen  Forschung  wertvolle  Erkenntnisse  uber  neue  Behandlungs- 
methoden  dieser  Erkrankung  und  auch  tiber  die  Punktionalitat  des  menschlichen  Gehirns. 

Eine  weitere  Kooperation  mit  der  Universitfit  Essen  wird  sich  mit  der  post- 
operativen  sprachlicheu  Untersuchung  von  Kindern  mit  Tumoren  in  der  hinteren 
Schadelgrube  (Kleinhirn)  befassen. 

Besonders  erwahnenswert  ist  die  langjahvige  Kooperation  mit  der  Polyklinik  fiir 
Mund-,  Kiefer-  und  Gesichtschirurgie  des  KHnikums  Rechts  der  Isar.  Der  dortige 
Einsatz  des  MODIAS-Systems  erbrachte  auch  wertvolle  Erfahrungen  mit  Patienten 
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einer  rein  organlsch,  also  nicht  neurogen  bedingten  Sprechstorung.  Im  Rahmen  der 
bisher  weltweit  umfassendsten  akustischen  Reihenuntersuchung  an  154  Patienten  mit 
•  Lippen-Kiefer-Gaumenspalten  konnten  damit  Aussagen  bezuglich  der  Pravalenz  von 
'Stimmstorungen  dieser  Patientengruppe  geliefert  und  auch  wertvolle  Hinweise  bezitglich 
der  Effektivitat  neuer  Operationstechniken  gewonnen  werden. 

Die  Entwicklungsgruppe  klinische  Neuropsychologie  des  Stadtisclien  Krankenhaii- 
ses  Munchen-Bogenhausen  konnte  durch  den  Einsatz  des  MODIAS-Systems 
im  Rahmen  mehrerer  Projekte  grundlegende  Erkenntnisse  uber  die  Leistungen  bei 
Satzproduktion  und  Diadochokinese  fiir  Patienten  verschiedener  neurogener  Sprech- 
stbrungssyndroine  gewinnen  (Syndromvergleiche).  Zusatzlich  liegen  Ergebnisse  von 
Langzeit-Studien  iiber  die  Therapieverlaufe  schwer  sprechgestorter  Patienten  vor  (Ein- 
zelfallstudien).  MODIAS  hat  sich  hier  bereits  als  fester  Bestandtei!  der  klinischen 
Diagnostik  und  Therapie  etabliert,  und  es  liefert  zusatzlich  einen  Beitrag  zu  ak- 
tuellen  Ftagestellungen  der  linguistischen,  psychologischen  und  medizinischen  Forschung. 

Die  geschilderten  klinischen  Anwendungen  bildeten  die  Basis  fiir  sprachwissen- 
schaftliche  Magister-  und  Doktorarbeiten  mit  zahlreich  publizierten  Einzelergebnissen 
und  -beitragen. 

Fiir  die  Zukunft  ist  -  neben  diversen  klinischen  Anwendungen  -  eine  Migration 
auf  die  neueste  MATLAB- Version  geplant,  Im  AnschluR  soli  die  erst  seit  diesem 
Jahr  mogliche  Kompilierung  des  MATLAB-basierten  MODIAS-Source-Codes  zu  einer 
selbstandig  lauffahigen  Applikation  fiir  jede  beliebige  Rechnerplattform  folgen,  um  die 
Systemkosten  nochmals  deutlich  zu  reduzieren  und  damit  die  klinische  Nutzung  weiter 
voranzutreiben. 
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Approximately  2  per  cent  of'  the  population  in  the  Western  World  suffer  from  the 
longterm-effects  of  a  brain  damage.  These  disorders  are  frequently  associated  with  speech 
imijairments,  which  can  affect  all  functional  structures  of  the  speech  process,  such  as  re¬ 
spiration,  voice  and  articulation. 

A  detailed  analysis  of  the  methods  used  in  speech  diagnostics  has  shown  a  prevalence  of 
auditory  methods  where  an  experienced  listener  is  faced  with  the  problem  of  assessing 
and  classifying  the  disorder  and  of  estimating  its  severity  reliably.  Auditory  methods 
are  time-consmning  and  subjective.  Acoustic  analysis  techniques,  on  the  other  hand,  can 
provide  clinicians  with  appropriate  tools  to  reduce  their  diagnostic  workload  and  to  ob¬ 
jectify  their  treatment  effects.  Although  in  principle  we  already  dispose  of  the  required 
methods  and  although  their  wide  clinical  use  is  highly  recommended,  not  even  the  most 
straightforward  parameters  are  regularly  included  as  a  standard  in  patient  reports  so  far. 
A  couple  of  reasons  can  be  named  to  explain  the  technological  lag  in  routine  clinical 
diagnostics: 


•  Systems  are  often  too  expensive,  compared  to  the  comparatively  low  budget  of 
neuropsychological  institutions. 

•  Most  systems  contain  too  many  degrees  of  freedom  and  they  partly  produce  data 
with  cpiestionable  diagnostic  relevance. 

•  To  obtain  stalile  results,  most  systems  require  time-consuming  preparatory  work 
(e.g.  for  speech  wave  segmentations). 

•  Standard  protocols  for  routine  diagnostic  examinations  are  lacking. 
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•  Presentation  of  results  is  often  not  sufficiently  transparent  and  the  interpretation 
of  the  obtained  parameters  may  be  quite  difficult  for  clinical  users. 

Starting  out  from  the  fact  that  there  is  a  clear  gap  between  technologically  feasible 
and  clinically  available  methods  the  present  thesis  aimed  at  developping  a  Modular 
Diagnostic  System  for  Speech  Disorders  (MODIAS).  The  system  presented 
here  is  the  result  of  more  than  five  years  of  direct  and  fruitful  cooperation  between 
the  Institute  for  Communication  Engineering  of  the  Federal  Armed  Forces  University, 
Munich,  and  the  Clinical  Neuropsychology  Research  Group  (EKN)  of  the  City  Hospital 
Munchen-Bogenhausen.  The  interdisciplinary  cooperation  between  experts  in  clinical 
neuropsychology  and  communication  engineers  produced  synergy  effects  which  could  be 
used  profitably  in  the  formulation  of  the  task  and  in  the  realization  of  the  instrument. 
The  project  interfaced  with  several  special  fields,  such  as  Neuropsychology,  Neurolin¬ 
guistics,  and  Phonetics  on  the  side  of  the  user  as  well  as  Electrical  Engineering  and 
Information  Sciences  on  the  side  of  the  system  designer.  Fiom  the  technical  point  of 
view,  the  implementation  of  the  MODIAS  system  presented  here  touched  large  parts  of 
the  following  scientific  fields:  Digital  Signal  Processing,  Psychoacoustics,  Pattern 
Recognition,  and  Artificial  Intelligence. 

Experiences  made  with  earlier  offsprings  from  the  cooperation  mentioned  above, 
such  as  the  TUS  system  or  the  computer-aided  experimental  system  PhonX,  gave 
valuable  impulses  for  the  whole  process  of  development.  While  the  TUS  system  covered 
the  aspect  of  intelligibility  measurement  {according  to  the  Munich  Intelligibility  Profile), 
the  PhonX  system  tapped  into  more  specific  aspects  of  diagnostics  and  treatment  of 
neurogenic  disorders  of  speech  production  (on  the  higher  level  of  speech  planning)  and 
of  speech  comprehension.  Since  both  systems  are  in  use  today,  data  interfaces  had  to  be 
developed  at  the  beginning  of  the  design  process,  in  order  to  establish  compatibility. 

The  MODIAS  system  provides  speech  pathologists  with  a  powerful  and  extensive 
instrument  for  routine  diagnostics  of  neurogenic  speech  disorders.  The  system 
is  based  on  acoustic  measures  obtained  from  the  microphone  signal  and  uses  current 
methods  of  Digital  Signal  Processing.  The  following  performance  profile  qualifies 
MODIAS  especially  for  diagnostic  use  in  a  clinical  environment; 

•  MODIAS  provides  only  clinically  relevant  speech  parameters  focused  on  the  most 
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i!iiportant  features  of  articulation,  voice,  and  prosody. 

•  MODIAS  integrates  all  important  aspects  of  a  clinical  examination  based  on  acou¬ 
stic  measures,  including  stimulus  presentation,  speech  signal  recording,  computati¬ 
on  of  parameters,  and  presentation  of  results. 

•  All  acoustic  parameters  are  technically  optimized  with  regard  to  stability  and  pre¬ 
cision.  Data  processing  requires  only  minimal  intervention  by  the  user. 

•  Results  are  j^resented  clearly  and  comprehensively;  they  can  easily  be  interpreted 
and  directly  be  transferred  to  patient  reports. 

MODIAS  is  based  on  a  PC  platform  with  a  commercial  sound-card  and  uses  MATLAB 
as  a  programming  environment.  It  consists  of  four  independent  modules. 

In  the  Voice  and  Vowel  Articulation  module  patients  are  required  to  sustain 
each  of  the  four  cardinal  vowels  /i/,  /y/,  /u/  and  /a/  at  a  comfortable  pitch  and  loud¬ 
ness  level  over  several  seconds.  Parametric  analysis  is  based  on  measures  describing  the 
position  of  predominantly  the  lips  and  the  tongue  thereby  giving  information  about  the 
patient’s  ability  of  articulating  the  different  vowels  in  a  sufficiently  contrastive  manner. 
Time-domain  and  cepstral  analyses  of  the  oscillogram  additionally  permit  to  judge  voice 
quality  and  voice  stability.  The  technical  realization  of  the  submodule  Voice  required 
the  design  of  a  time-based  pitch-tracking-algorithm  that  detects  fundamental  periods 
cycle-by-cycle.  The  stability  of  the  resulting  pitch  trajectories  is  analyzed  by  using  a 
new  method  which  allows  for  a  detailed  examination  of  different  kinds  of  relevant  types 
of  instabilities  (pitch-trend,  pitch-variability  and  jitter).  As  a  measure  of  breathy  voice 
quality,  the  CPPS  parameter  (Cepstral  Peak  Prominence  Smoothed),  introduced  only 
recently,  was  implemented.  In  particular,  CPPS-over-time-trajectories  can  be  analyzed 
in  order  to  detect  intermittent  perturbations,  a  feature  that  has  not  been  used  before. 
The  validity  of  the  two  measures  of  roughness  (jitter)  and  breathiness  (CPPS)  was 
established  by  a  set  of  synthetic  voice  samples.  This  method  required  the  development  of 
a  formant-vocoder  and  the  simulation  of  vocal  cord  vibrations  with  different  roughness 
and  breathiness  ratios.  The  technical  realization  of  the  submodule  Articulation  was 
based  on  modelling  the  vocal  tract  by  means  of  an  autoregressive  filter  design.  In 
this  model,  all  conjugate  complex  pole-pairs  of  the  system  functions  are  computed  by 
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the  autocorrelation  method  followed  by  a  Leviuson-Durbin-Recursion.  Because  of  the 
time- variant  nature  of  the  speech  signal,  all  pole-pairs  (model  parameters)  are  calculated 
100  times  per  second.  The  correlation  between  the  pole-pair  location  in  the  complex 
z-plane  and  the  excessive  maximum  of  the  corresponding  Fourier-transform  (formants) 
follows  a  new,  non-linear  calculation  algorithm,  since  the  conventional  linear  method 
showed  inacceptable  errors  in  formant  analysis  in  unfavourable  cases.  In  addition, 
this  method  allows  for  an  identification  of  critical  areas  within  the  z-plane  causing 
extreme  variances  of  the  obtained  formant  frequencies  (spurious  peaks  and  dropouts), 
and  of  overcritical  areas  where  even  conjugate  complex  pole  pairs  lack  of  any  detectable, 
resonance  at  all  (speciral-shaping-poles).  MODIAS  detects  and  supresses  these  critical 
and  overcritical  pole-pairs  and  thereby  provides  stable  formant  trajectories  even  in 
cases  of  poor  maintenance  of  the  speakers  laryngeal  setting  over  time.  Since  unplausible 
formant  frequency  regions  cannot  be  defined  for  patients  with  speech  disorders,  the 
formant-tracking-algorithm  provides  interactive  tracking  facilities  for  the  handling  of 
questionable  data. 

Alterations  in  speech  rate,  rhythm,  and  fluency  can  be  examined  by  the  Sen¬ 
tence  Production  module.  For  this  purpose  a  method  has  been  developed  for  the 
assessment  of  the  temporal  structure  of  an  utterance.  The  patient  is  required  to  speak 
a  standard  set  of  test  sentences  which  ai-e  composed  of  a  constant  carrier  phrase  with 
embedded  target  words  of  varying  complexity  (Ute  kann  die  Trompeie  bekommen).  In 
an  alternative  version,  the  carrier  phrase  is  varied,  in  order  to  avoid  learning  effects 
in  close-meshed  treatment  control  applications.  A  simplified  loudness  model  developed 
by  Ruske  and  Beham  is  used  to  automatically  detect  syllable  boundaries  in  the  signal. 
By  this  algorithm,  the  nature  of  human  hearing  is  reproduced  by  a  simulation  of  the 
distributed  excitation  along  the  basilar  membrane  as  a  function  of  the  corresponding 
acoustic  waveform.  By  changing  from  physical  measurements  into  psychoacoustic 
dimensions  the  syllable  detection  algorithm  uses  a  similar  speech  segmentation  strategy 
as  human  listeners  do.  The  detection  of  syllable  boundaries  is  further  improved  by 
a  procedure  which  compensates  for  noise  disturbances  caused  by  the  PC-/soundcard 
system  on  the  basis  of  statistical  signal  theory  methods.  The  results  of  automatic 
syllable  segmentation  can  be  inspected  and  corrected  interactively,  using  both  visual 
and  auditory  information.  The  temporal  information  on  the  syllabic  grid  of  a  sentence 
can  be  supplemented  by  auditory-based  information  on  segmental  errors.  Syllables  can 
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be  marked  for  such  errors,  yielding  a  combined  time-accuracy  pattern  of  articulation 
which  may  be  useful  in  the  examination  of  sentence  production  disorders  in  aphasia  and 
apraxia  of  speech. 

The  Diaclochokinesis  module  allows  for  a  PC-based  examination  of  rapid  sylla¬ 
ble  repetition  tasks.  Syllable  repetition  chains  such  as  /bababa.../  or  /danadana...'/. 
are  to  be  realized  as  fast  and  as  long  as  possible.  Evaluation  is  focused  on  rate  and ' 
on  alterations  or  dysrhythmic  variations  of  syllable  duration  and  loudness.  A  syllable 
detection  algorithm  is  applied  which  is  based  on  the  same  parameters  as  in  the  Sentence 
Production  module,  but  extended  by  specific  measures  describing  irregularities  in 
syllable  production,  This  module  applies  as  a  standard  instrument  for  the  sensitive 
assessment  of  dysarthria  severita  and,  as  it  turned  out  by  now,  for  the  differential 
diagnosis  of  dysarthria  and  apraxia  of  speech. 

The  module  Fi-icative  Articulation  is  a  tool  for  the  acoustic  analysis  of  voice¬ 
less  fricatives.  The  patient  is  required  to  produce  a  fixed  set  of  phonetic  minimal  triples, 
such  as  lassen,  Laschen^  lachen.  The  examination  protocol  is  focussed  on  the  assessment 
of  the  faculty  of  contrasting  the  fricatives  /s/,  /sh/,  and  /x/  versus  preceding  vowels  as 
well  as  of  the  faculty  of  realizing  the  three  different  fricatives  in  a  sufficiently  distinctive 
manner.  For  this  purpose,  eight  different  pattern  recognition  systems  were  designed  and 
each  of  them  was  trained  on  a  sufficient  number  of  normal  speakers.  New  methods  for 
feature-extraction,  feature-selection  and  feature-normalisation  allow  for  a  classification 
of  the  selected  si^eech  sounds,  exclusively  from  their  spectral  characteristics.  Irrelevant 
factors  such  as  absolute  loudness  or  system  parameters  like  predefined  gain  levels 
of  the  recording  system  are  controlled.  For  the  discrimination  between  vowels  and 
fricatives  a  procedure  has  been  developed  to  measure  probabilities  of  class  member¬ 
ship  (Bayes-classifier)  as  a  predictor  for  articulatory  discrimination  capability.  For 
this  purpose,  cl  ass- specific  feature  distributions  were  approximated  by  1-dimensional 
Gaussian  densities  in  order  to  evaluate  a-posteriori-probabilities  for  each  class.  For  the 
between-fricative-discrimination  component  a  special  pattern  recognition  system  was 
realized  which  uses  misclassification  rates  to  predict  imprecise  fricative  articulation. 
Here  a  Mahalanobis-distance-classifier  was  implemented  to  approximate  class-specific 
feature  distributions  by  2-dimensional  Gaussian  densities.  Additionally,  auditory 
based  ratings  have  been  implemented  in  order  to  compare  acoustic-based  classifica- 
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tions  of  the  pattern  recognition  system  with  auditory-based  decisions  of  a  trained  listener. 

From  the  beginning,  the  development  of  the  MODIAS  system  has  been  steered 
by  a  continuous  dialogue  between  system  developer  and  clinical  users,  which  has  led 
to  an  iterative  optimisation  process.  The  overall  design  of  the  system  was  inspired  by 
clinical  needs  and  by  previous  clinical  and  methodological  research.  This  was 
based  on  a  close  collaboration  with  the  Clinical  Neuropsychology  Research  Group  (EKN) 
of  the  City  Hospital  Munchen-Bogenhausen.  Further,  clinical  experience  contributed  to 
a  step-by-step  adjustment  of  algorithms  and  user  interfaces.  In  particular  cases,  partial 
developments  had  to  be  stopped  and  resumed  by  a  entirely  new  approach.  So  far,  more 
than  500  subjects  have  been  examined. 

Before  the  publication  of  this  work,  MODIAS  had  been  presented  on  speech-related 
conferences  in  Germany,  Great  Britain,  the  Netherlands,  Austria,  and  Italy.  Various 
cooperation  projects  could  be  established  ,  e.g.  to  the  University  of  Heidelberg  {in  a 
deep  brain  electrical  stimulation  project  with  Parkinson’s  patients)  or  to  the  University 
of  Essen  (in  a  tumor  surgery  project). 

Especially  worth  mentioning  is  the  long-standing  cooperation  with  the  clinic  for 
mouth-,  jaw-  and  face-surgery  of  the  Klinikum  Rechts  der  Isar-  Munich.  The  use  of 
MODIAS  resulted  here  in  valuable  experiences  with  patients  suffering  from  organic  (to 
be  precise  not  neurogenic)  speech  disorders.  In  the  framework  of  the  world-wide  most 
extensive  mass  screening  of  patients  with  cleft  palates  valuable  information  about  the 
prevalence  of  voice  disorders  and  about  the  effectiveness  of  new  surgical  techniques 
could  be  obtained. 

Applications  of  MODIAS  in  the  Clinical  Neuropsychology  Research  Group  (EKN) 
of  the  City  Hospital  Munchen-Bogenhausen  was  directed  at  gaining  basic  informa¬ 
tion  about  sentence  production  and  diadochokinesis  in  patients  suffering  from  different 
neurogenic  speech  impairments.  This  included  applications  in  long-term-studies  on  the 
treatment  of  patients  with  severe  apraxia  of  speech.  In  this  environment  MODIAS  has 
already  become  a  standard  of  clinical  diagnostics  and  therapy.  In  addition,  it 
contributes,  as  a  new  research  tool,  to  psycholinguistic,  phonetic,  and  neuropsychological 
research. 
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The  described  clinical  use  has  been  the  basis  of  several  M.A.  and  doctoral  theses, 
the  results  of  which  have  been  published  in  a  number  of  scientific  articles. 

In  the  future,  the  clinical  application  of  MODIAS  shall  be  expanded.  In  addition 
to  this,  a  migration  to  the  latest  MATLAB  version  is  intended.  A  compilation  of  the 
MATLAB-based  source  code  to  a  stand-alone-application  running  on  any  hardware  is  to 
follow,  in  order  to  further  reduce  system  costs. 
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